极限推理质量Qwen3-235B-A22B-Thinking-2507-FP8：TAU2-Retail 71.9分

张

张建站

2026/5/30 8:36:24

10分钟阅读

极限推理质量Qwen3-235B-A22B-Thinking-2507-FP8TAU2-Retail 71.9分【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8Qwen3-235B-A22B-Thinking-2507-FP8是一款具有极限推理质量的大型语言模型在TAU2-Retail评测中取得了71.9分的优异成绩。该模型基于Qwen3-235B-A22B-Thinking-2507进行FP8量化在保持高性能的同时有效降低了资源占用为复杂推理任务提供了强大支持。模型亮点三大核心突破过去三个月Qwen3-235B-A22B的推理能力持续提升不仅提高了推理的质量和深度还推出了FP8版本。Qwen3-235B-A22B-Thinking-2507-FP8主要有以下关键增强推理任务性能显著提升在逻辑推理、数学、科学、编码以及通常需要人类专业知识的学术基准测试中表现出色在开源推理模型中达到了最先进的结果。通用能力明显增强包括指令遵循、工具使用、文本生成以及与人类偏好的对齐等方面都有很大进步。增强的256K长上下文理解能力能够更好地处理长文本信息满足复杂场景的需求。注意此版本增加了思考长度强烈建议在高度复杂的推理任务中使用。模型概述强大配置解析 Qwen3-235B-A22B-Thinking-2507-FP8是Qwen3-235B-A22B-Thinking-2507的FP8版本具有以下特点类型因果语言模型训练阶段预训练和后训练参数数量总计235B激活22B非嵌入参数数量234B层数94层注意力头数GQAQ为64KV为4专家数量128个激活专家数量8个上下文长度原生262,144 tokens重要提示该模型仅支持思考模式同时不再需要指定enable_thinkingTrue。此外为了强制模型思考默认的聊天模板会自动包含/think因此模型输出中仅包含/think而没有显式的开始RichMediaReference标签是正常的。更多详细信息包括基准评估、硬件要求和推理性能请参考官方文档。性能解析TAU2-Retail 71.9分的背后 Qwen3-235B-A22B-Thinking-2507-FP8在各项评测中表现出色尤其在TAU2-Retail评测中获得71.9分。以下是部分关键评测结果类别评测项Deepseek-R1-0528OpenAI O4-miniOpenAI O3Gemini-2.5 ProClaude4 Opus ThinkingQwen3-235B-A22B ThinkingQwen3-235B-A22B-Thinking-2507推理AIME2587.592.7*88.9*88.075.581.592.3推理HMMT2579.466.777.582.558.362.583.9编码LiveCodeBench v6 (25.02-25.05)68.771.858.672.548.955.774.1AgentBFCL-v363.867.272.467.261.870.871.9AgentTAU2-Retail64.971.076.371.3-40.471.9注对于OpenAI O4-mini和O3我们使用中等推理努力除了标有的分数是使用高推理努力生成的。从上述结果可以看出Qwen3-235B-A22B-Thinking-2507-FP8在推理、编码和Agent等多个领域都展现出强大的能力TAU2-Retail的71.9分也充分证明了其在相关任务上的出色表现。快速上手简单步骤开始使用 Qwen3-MoE的代码已集成到最新的Hugging Facetransformers中建议使用最新版本的transformers。如果使用transformers4.51.0可能会遇到KeyError: qwen3_moe错误。以下是使用模型根据给定输入生成内容的代码片段from transformers import AutoModelForCausalLM, AutoTokenizer model_name Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 # 加载tokenizer和模型 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypeauto, device_mapauto ) # 准备模型输入 prompt Give me a short introduction to large language model. messages [ {role: user, content: prompt} ] text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue, ) model_inputs tokenizer([text], return_tensorspt).to(model.device) # 进行文本补全 generated_ids model.generate( **model_inputs, max_new_tokens32768 ) output_ids generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # 解析思考内容 try: # rindex查找151668/think index len(output_ids) - output_ids[::-1].index(151668) except ValueError: index 0 thinking_content tokenizer.decode(output_ids[:index], skip_special_tokensTrue).strip(\n) content tokenizer.decode(output_ids[index:], skip_special_tokensTrue).strip(\n) print(thinking content:, thinking_content) # 没有开始的/think标签 print(content:, content)部署方式对于部署可以使用sglang0.4.6.post1或vllm0.8.5创建兼容OpenAI的API端点SGLang:python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tp 4 --context-length 262144 --reasoning-parser deepseek-r1vLLM:vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507-FP8 --tensor-parallel-size 4 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1注意如果遇到内存不足OOM问题可以考虑将上下文长度减少到较小的值。但是由于模型可能需要更长的token序列进行推理因此建议在可能的情况下使用大于131,072的上下文长度。对于本地使用Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用也已支持Qwen3。FP8版本说明高效与性能并存 ⚡为了方便和性能我们提供了Qwen3的fp8量化模型 checkpoint其名称以-FP8结尾。量化方法是块大小为128的细粒度fp8量化。可以在config.json中的quantization_config字段找到更多详细信息。您可以使用transformers、sglang和vllm等多个推理框架来使用Qwen3-235B-A22B-Thinking-2507-FP8模型就像使用原始的bfloat16模型一样。最佳实践获取最佳性能的技巧为了获得最佳性能建议使用以下设置1. 采样参数建议使用Temperature0.6TopP0.95TopK20和MinP0。对于支持的框架可以将presence_penalty参数调整在0到2之间以减少无休止的重复。但是使用较高的值偶尔可能会导致语言混合和模型性能略有下降。2. 足够的输出长度对于大多数查询建议使用32,768 tokens的输出长度。对于高度复杂问题的基准测试例如数学和编程竞赛中的问题建议将最大输出长度设置为81,920 tokens。这为模型提供了足够的空间来生成详细和全面的响应从而提高其整体性能。3. 标准化输出格式在进行基准测试时建议使用提示来标准化模型输出数学问题在提示中包含Please reason step by step, and put your final answer within \boxed{}.。多项选择题在提示中添加以下JSON结构以标准化响应Please show your choice in theanswerfield with only the choice letter, e.g.,answer: C.。4. 历史记录中不包含思考内容在多轮对话中历史模型输出应仅包含最终输出部分不需要包含思考内容。这在Jinja2中提供的聊天模板中实现。但是对于不直接使用Jinja2聊天模板的框架开发人员需要确保遵循此最佳实践。总结极限推理能力的理想选择 Qwen3-235B-A22B-Thinking-2507-FP8以其71.9分的TAU2-Retail成绩和在多项评测中的出色表现证明了其强大的极限推理能力。FP8量化技术使其在保持高性能的同时降低了资源消耗是处理复杂推理任务的理想选择。无论是学术研究、工程开发还是其他需要深度思考的场景该模型都能提供有力支持。如果您想开始使用Qwen3-235B-A22B-Thinking-2507-FP8可以通过以下命令克隆仓库git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8立即体验这款具有极限推理质量的大型语言模型开启您的高效推理之旅【免费下载链接】Qwen3-235B-A22B-Thinking-2507-FP8项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

除了xfs_repair，grub命令行还能这么玩？深度解析湖南麒麟系统修复时的几个关键参数

湖南麒麟系统修复实战：从grub参数到XFS文件系统的深度解析当湖南麒麟系统遭遇启动故障时，大多数用户的第一反应是直接使用xfs_repair工具。但真正资深的系统管理员知道，修复过程往往始于GRUB引导阶段那些看似晦涩的参数设置。本文将带您深入探…...

2026/5/30 8:33:06 阅读更多 →

别再手动建表了！用SpringBoot JPA + PostgreSQL自动生成数据库表（附DDL-AUTO配置详解）

解放双手：SpringBoot JPA与PostgreSQL自动化表结构管理实战指南在快节奏的现代软件开发中，数据库表结构管理往往成为效率瓶颈。传统手动编写SQL脚本的方式不仅耗时耗力，更难以适应频繁变更的业务需求。本文将深入探讨如何利用SpringBoot JPA与…...

2026/5/30 8:33:04 阅读更多 →

3种方法重塑右键菜单：ContextMenuManager可视化管理系统实战指南

3种方法重塑右键菜单：ContextMenuManager可视化管理系统实战指南【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾在Windows系统中面对臃肿不…...

2026/5/30 8:32:12 阅读更多 →

ML模型监控工具：监控和维护机器学习模型的性能

ML模型监控工具：监控和维护机器学习模型的性能一、ML模型监控工具概述 1.1 ML模型监控工具的定义 ML模型监控工具是指用于监控和维护机器学习模型性能的软件工具。它通过收集模型的预测数据、性能指标和数据质量，帮助用户了解模型的状态，及时…...

2026/5/30 6:22:30 阅读更多 →

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略

AI 开发工具选择指南：Qoder、Qwen 与开发者使用策略引言在 AI 技术快速发展的今天，越来越多的 AI 工具涌现出来，帮助开发者提高工作效率。但对于许多开发者来说，面对众多的 AI 产品和服务，往往感到困惑：这…...

2026/5/29 11:42:12 阅读更多 →

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南

全平台资源下载神器：5分钟掌握res-downloader的完整使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 还在…...

2026/5/29 4:41:15 阅读更多 →

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案

2024三星固件下载完整指南：Bifrost跨平台工具终极解决方案【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost 还在为三星设备固件下载而烦恼吗&#xff…...

2026/5/29 11:37:03 阅读更多 →