极限推理质量Qwen3-235B-A22B-Thinking-2507-FP8:TAU2-Retail 71.9分
极限推理质量Qwen3-235B-A22B-Thinking-2507-FP8TAU2-Retail 71.9分【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8Qwen3-235B-A22B-Thinking-2507-FP8是一款具有极限推理质量的大型语言模型在TAU2-Retail评测中取得了71.9分的优异成绩。该模型基于Qwen3-235B-A22B-Thinking-2507进行FP8量化在保持高性能的同时有效降低了资源占用为复杂推理任务提供了强大支持。模型亮点三大核心突破 过去三个月Qwen3-235B-A22B的推理能力持续提升不仅提高了推理的质量和深度还推出了FP8版本。Qwen3-235B-A22B-Thinking-2507-FP8主要有以下关键增强推理任务性能显著提升在逻辑推理、数学、科学、编码以及通常需要人类专业知识的学术基准测试中表现出色在开源推理模型中达到了最先进的结果。通用能力明显增强包括指令遵循、工具使用、文本生成以及与人类偏好的对齐等方面都有很大进步。增强的256K长上下文理解能力能够更好地处理长文本信息满足复杂场景的需求。注意此版本增加了思考长度强烈建议在高度复杂的推理任务中使用。模型概述强大配置解析 Qwen3-235B-A22B-Thinking-2507-FP8是Qwen3-235B-A22B-Thinking-2507的FP8版本具有以下特点类型因果语言模型训练阶段预训练和后训练参数数量总计235B激活22B非嵌入参数数量234B层数94层注意力头数GQAQ为64KV为4专家数量128个激活专家数量8个上下文长度原生262,144 tokens重要提示该模型仅支持思考模式同时不再需要指定enable_thinkingTrue。此外为了强制模型思考默认的聊天模板会自动包含/think因此模型输出中仅包含/think而没有显式的开始RichMediaReference标签是正常的。更多详细信息包括基准评估、硬件要求和推理性能请参考官方文档。性能解析TAU2-Retail 71.9分的背后 Qwen3-235B-A22B-Thinking-2507-FP8在各项评测中表现出色尤其在TAU2-Retail评测中获得71.9分。以下是部分关键评测结果类别评测项Deepseek-R1-0528OpenAI O4-miniOpenAI O3Gemini-2.5 ProClaude4 Opus ThinkingQwen3-235B-A22B ThinkingQwen3-235B-A22B-Thinking-2507推理AIME2587.592.7*88.9*88.075.581.592.3推理HMMT2579.466.777.582.558.362.583.9编码LiveCodeBench v6 (25.02-25.05)68.771.858.672.548.955.774.1AgentBFCL-v363.867.272.467.261.870.871.9AgentTAU2-Retail64.971.076.371.3-40.471.9注对于OpenAI O4-mini和O3我们使用中等推理努力除了标有的分数是使用高推理努力生成的。从上述结果可以看出Qwen3-235B-A22B-Thinking-2507-FP8在推理、编码和Agent等多个领域都展现出强大的能力TAU2-Retail的71.9分也充分证明了其在相关任务上的出色表现。快速上手简单步骤开始使用 Qwen3-MoE的代码已集成到最新的Hugging Facetransformers中建议使用最新版本的transformers。如果使用transformers4.51.0可能会遇到KeyError: qwen3_moe错误。以下是使用模型根据给定输入生成内容的代码片段from transformers import AutoModelForCausalLM, AutoTokenizer model_name Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 # 加载tokenizer和模型 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypeauto, device_mapauto ) # 准备模型输入 prompt Give me a short introduction to large language model. messages [ {role: user, content: prompt} ] text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue, ) model_inputs tokenizer([text], return_tensorspt).to(model.device) # 进行文本补全 generated_ids model.generate( **model_inputs, max_new_tokens32768 ) output_ids generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # 解析思考内容 try: # rindex查找151668/think index len(output_ids) - output_ids[::-1].index(151668) except ValueError: index 0 thinking_content tokenizer.decode(output_ids[:index], skip_special_tokensTrue).strip(\n) content tokenizer.decode(output_ids[index:], skip_special_tokensTrue).strip(\n) print(thinking content:, thinking_content) # 没有开始的/think标签 print(content:, content)部署方式对于部署可以使用sglang0.4.6.post1或vllm0.8.5创建兼容OpenAI的API端点SGLang:python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tp 4 --context-length 262144 --reasoning-parser deepseek-r1vLLM:vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1注意如果遇到内存不足OOM问题可以考虑将上下文长度减少到较小的值。但是由于模型可能需要更长的token序列进行推理因此建议在可能的情况下使用大于131,072的上下文长度。对于本地使用Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用也已支持Qwen3。FP8版本说明高效与性能并存 ⚡为了方便和性能我们提供了Qwen3的fp8量化模型 checkpoint其名称以-FP8结尾。量化方法是块大小为128的细粒度fp8量化。可以在config.json中的quantization_config字段找到更多详细信息。您可以使用transformers、sglang和vllm等多个推理框架来使用Qwen3-235B-A22B-Thinking-2507-FP8模型就像使用原始的bfloat16模型一样。最佳实践获取最佳性能的技巧 为了获得最佳性能建议使用以下设置1. 采样参数建议使用Temperature0.6TopP0.95TopK20和MinP0。对于支持的框架可以将presence_penalty参数调整在0到2之间以减少无休止的重复。但是使用较高的值偶尔可能会导致语言混合和模型性能略有下降。2. 足够的输出长度对于大多数查询建议使用32,768 tokens的输出长度。对于高度复杂问题的基准测试例如数学和编程竞赛中的问题建议将最大输出长度设置为81,920 tokens。这为模型提供了足够的空间来生成详细和全面的响应从而提高其整体性能。3. 标准化输出格式在进行基准测试时建议使用提示来标准化模型输出数学问题在提示中包含Please reason step by step, and put your final answer within \boxed{}.。多项选择题在提示中添加以下JSON结构以标准化响应Please show your choice in theanswerfield with only the choice letter, e.g.,answer: C.。4. 历史记录中不包含思考内容在多轮对话中历史模型输出应仅包含最终输出部分不需要包含思考内容。这在Jinja2中提供的聊天模板中实现。但是对于不直接使用Jinja2聊天模板的框架开发人员需要确保遵循此最佳实践。总结极限推理能力的理想选择 Qwen3-235B-A22B-Thinking-2507-FP8以其71.9分的TAU2-Retail成绩和在多项评测中的出色表现证明了其强大的极限推理能力。FP8量化技术使其在保持高性能的同时降低了资源消耗是处理复杂推理任务的理想选择。无论是学术研究、工程开发还是其他需要深度思考的场景该模型都能提供有力支持。如果您想开始使用Qwen3-235B-A22B-Thinking-2507-FP8可以通过以下命令克隆仓库git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8立即体验这款具有极限推理质量的大型语言模型开启您的高效推理之旅【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考