知识问答能力测试：Mellum2-12B-A2.5B-Instruct在MMLU-Redux和GPQA的卓越表现

张

张建站

2026/6/5 17:43:11

10分钟阅读

知识问答能力测试Mellum2-12B-A2.5B-Instruct在MMLU-Redux和GPQA的卓越表现【免费下载链接】Mellum2-12B-A2.5B-Instruct项目地址: https://ai.gitcode.com/hf_mirrors/JetBrains/Mellum2-12B-A2.5B-Instruct你是否在寻找一个能在复杂知识问答任务中表现出色的大语言模型今天我们将深入探讨JetBrains Mellum2-12B-A2.5B-Instruct模型在MMLU-Redux和GPQA等权威知识问答基准测试中的惊人表现。这款由JetBrains开发的12B参数模型凭借其独特的混合专家架构和131K上下文长度在知识问答领域展现了令人印象深刻的能力。 Mellum2-12B-A2.5B-Instruct的核心优势Mellum2-12B-A2.5B-Instruct是一款基于混合专家架构的指令调优模型拥有64个专家和每令牌激活8个专家的设计。该模型采用了滑动窗口和全注意力层的组合支持高达131,072个令牌的上下文长度。在知识问答能力测试中它在多个基准测试中都取得了优异的成绩。 MMLU-Redux测试78.1%的准确率在MMLU-Redux知识问答基准测试中Mellum2-12B-A2.5B-Instruct取得了78.1%的准确率这一成绩在同类模型中表现突出。MMLU-Redux是一个涵盖57个学科领域的综合性知识问答数据集测试模型在各个领域的专业知识掌握程度。MMLU-Redux测试的关键特点涵盖STEM、人文、社会科学等多个学科测试模型的多领域知识理解能力评估模型的推理和判断能力 GPQA Diamond测试40.9%的准确率在更具挑战性的GPQA Diamond知识问答测试中Mellum2-12B-A2.5B-Instruct同样表现出色达到了40.9%的准确率。GPQA Diamond是一个专门针对研究生水平专业知识设计的测试集难度极高对模型的深度知识理解能力提出了严峻挑战。GPQA Diamond测试的独特价值专注于研究生级别的专业知识测试模型的深度专业理解评估复杂概念的掌握程度⚙️ 技术架构支撑卓越表现Mellum2-12B-A2.5B-Instruct的卓越知识问答能力源于其先进的技术架构模型规格详情层数28层隐藏大小2304中间大小7168MoE中间大小896注意力头数32个Q头和4个KV头词汇表大小98,304精度bfloat16 与其他模型的对比表现在知识问答能力测试方面Mellum2-12B-A2.5B-Instruct与竞品模型相比表现如何模型MMLU-ReduxGPQA DiamondMellum2-12B-A2.5B-Instruct78.1%40.9%Qwen3.5 (4B)87.5%76.8%Qwen3.5 (9B)91.1%79.8%OLMo-3 (7B)71.8%40.9%Ministral 3 (14B)85.9%58.6%虽然在某些基准测试中略逊于更大的模型但考虑到其参数规模Mellum2-12B-A2.5B-Instruct在知识问答能力测试中的表现仍然相当出色。快速开始使用Mellum2进行知识问答想要体验Mellum2-12B-A2.5B-Instruct的强大知识问答能力以下是一个简单的使用示例from openai import OpenAI client OpenAI() messages [ {role: user, content: 请解释量子纠缠的基本原理及其在量子计算中的应用。}, ] response client.chat.completions.create( modelJetBrains/Mellum2-12B-A2.5B-Instruct, messagesmessages, max_tokens81920, temperature0.6, top_p0.95, ) print(知识问答结果, response) 最佳实践建议为了充分发挥Mellum2-12B-A2.5B-Instruct在知识问答能力测试中的潜力建议利用完整上下文充分利用131K的上下文长度提供充分的背景信息明确问题表述清晰、具体的问题有助于获得更准确的答案调整温度参数对于知识问答任务建议使用较低的温度值如0.6-0.8结合思维链对于复杂问题可以考虑使用Thinking版本进行多步推理评估结果文件参考详细的评估结果可以在以下文件中找到mellum2.yaml - 包含GPQA和BFCL v3的评估数据README.md - 完整的基准测试结果和模型规格总结Mellum2-12B-A2.5B-Instruct在知识问答能力测试中展现出了强大的性能特别是在MMLU-Redux和GPQA Diamond等权威基准测试中取得了令人瞩目的成绩。无论是学术研究、专业咨询还是日常知识查询这款模型都能提供高质量的回答。随着人工智能技术的不断发展我们期待看到更多像Mellum2这样的模型在知识问答领域取得突破。注意所有评估数据均为JetBrains自报告结果具体表现可能因使用场景和配置而异。【免费下载链接】Mellum2-12B-A2.5B-Instruct项目地址: https://ai.gitcode.com/hf_mirrors/JetBrains/Mellum2-12B-A2.5B-Instruct创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

憬然堂德州新华路店盛大启幕让千年国医走进街角日常

2026年6月5日，东方医道集团旗下憬然堂数智中医诊所连锁又一门店于德州新华路正式启幕。这不是一次简单的空间拓展，而是一场以初心为核、以模式为翼的中医服务范式升级——‌“憬然有悟，医道复兴”‌，是品牌始终如一的精神坐标。在…...

2026/6/5 17:41:34 阅读更多 →

Neper完全指南：5步掌握多晶体建模与网格划分利器

Neper完全指南：5步掌握多晶体建模与网格划分利器【免费下载链接】neper Polycrystal generation and meshing 项目地址: https://gitcode.com/gh_mirrors/nep/neper 想要快速构建高质量的多晶体模型吗？Neper是材料科学领域最强大的开源工具之一&…...

2026/6/5 17:41:06 阅读更多 →

解锁AMD Ryzen终极性能：SMUDebugTool硬件级调试实战指南

解锁AMD Ryzen终极性能：SMUDebugTool硬件级调试实战指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://…...

2026/6/5 17:39:58 阅读更多 →