‍♂️ 个人主页小李同学_LSH的主页✍ 作者简介LLM学习者 希望大家多多支持我们一起进步如果文章对你有帮助的话欢迎评论 点赞 收藏 加关注目录 前言为什么这次不一样 速览核心规格 核心机制「自我进化」到底是什么先说清楚不是AI 变成了上帝Agent Harness自我进化的底层框架M2.7 在迭代中发现了什么不只是调参是真的在参与训练 Benchmark 全解读最亮眼SWE-bench Verified 78%工程能力全面领先MLE Bench Lite让模型参加 Kaggle 比赛 三大核心能力能力一专业软件工程能力二专业办公Office 三件套能力三Agent Teams多智能体协作 这件事真正的含义三个维度的思考维度一训练范式的根本性转变维度二竞争格局的「马太效应」将加速维度三一个值得认真对待的问题 定价50 倍价差意味着什么️ 读者投票 总结 最后一句话开门见山2026年3月18日MiniMax 发布 M2.7顺手开源。参数、Benchmark 都很能打——但这些不是重点。重点是官方文档里的一句话这是我们第一个深度参与迭代自己的模型。看完这句话我后背有点发凉。基本信息 发布时间2026年3月18日 出品MiniMax⚙️ 架构MoE混合专家229B 参数 上下文200K Token 开源HuggingFace 完整权重 定价$0.30/$1.20输入/输出比 Claude Opus 4.6 便宜约50 倍 前言为什么这次不一样每个月都有新模型发布每次都说史上最强大家都麻木了。但 M2.7 这次我建议你认真看。不是因为它的 SWE-bench Verified 拿了 78%虽然这个数字比 Claude Opus 4.6 的 55% 高出 23 个百分点。而是因为官方发布文章里有这样一句话MiniMax M2.7 是我们第一个模型深度参与迭代自己的模型。翻译成大白话M2.7 参与了自己的训练过程。不是科幻。不是噱头。是已经发生的事——而且有数据M2.7 在无人工干预的情况下自主跑了超过100 轮迭代最终让评测结果提升了30%。这篇文章要搞清楚三件事M2.7 的自我进化到底是什么技术机制是什么它的 Benchmark 表现到底靠不靠谱这件事真正的含义是什么——对 AI 发展的走向 速览核心规格指标MiniMax M2.7Claude Opus 4.6对比参数229B MoE未公开-上下文200K200K持平SWE-bench Verified78%55%23%SWE-Pro56.22%~53%领先Terminal Bench 257.0%~52%领先MLE Bench Lite 奖牌率66.6%更高略逊定价输入/输出$0.30/$1.20$15/$75便宜 50 倍开源✅❌- 核心机制「自我进化」到底是什么先说清楚不是AI 变成了上帝很多文章把自我进化说得玄乎好像 AI 开始自主意识觉醒了。实际上远没有那么神秘但依然非常重要。让我用一个简单类比解释过去的 AI 训练是这样的人类工程师 → 设计实验 → 跑训练 → 看结果 → 调参数 → 重新跑 ↑_____________手动循环________________↓M2.7 的自我进化是这样的M2.7 → 分析失败轨迹 → 规划改动 → 修改脚手架代码 ↑ ↓ └──────── 决定保留/回滚 ←── 对比结果 ←── 跑评测核心差异把原来需要人类工程师做的分析—改进—验证循环交给模型自己执行。Agent Harness自我进化的底层框架M2.7 的自我进化建立在Agent Harness智能体脚手架框架上。这个循环在内部测试中跑了超过100 轮全程无人工干预。M2.7 在迭代中发现了什么这是最有意思的细节。M2.7 在自主迭代过程中自己发现了三类有效优化没有人告诉它该找什么① 采样参数最优组合系统性搜索温度Temperature、频率惩罚Frequency Penalty、存在惩罚Presence Penalty的最优组合——比人工调参找到了更好的配置。从优化目标的角度看这等价于在参数空间上做了自动搜索其中是任务成功率是当前采样策略。M2.7 自己做了这个搜索而不是依赖人类设计搜索空间。② 给自己写了新的操作规范比如修完一个 Bug 之后自动去其他文件里搜索相同的 Bug 模式。没人教它这么做。它自己从失败的任务轨迹里推断出了这个规律然后把它写成了工作流规则。③ 在 Agent 执行链里加了死循环检测防止在复杂任务中卡住。这是一个典型的工程直觉——M2.7 从反复遇到卡死问题的轨迹里总结出了这个防御机制。不只是调参是真的在参与训练需要澄清一个可能的误解M2.7 的自我进化不只是推理时的参数调优它深度介入了训练流程。MiniMax 把 M2 系列早期版本引导为一个研究型 Agent与不同项目组协同工作覆盖数据流水线管理训练环境配置评测体系设计跨团队协作协调在强化学习RL场景中Agent 能从实验设想出发自动完成文献调研、实验设计、任务执行、日志分析、Bug 排查、指标优化、代码修复直到提交合并请求并跑冒烟测试。官方数据在部分研发流程中M2.7 已可承担30%-50% 的工作量。 Benchmark 全解读最亮眼SWE-bench Verified 78%模型SWE-bench Verified说明MiniMax M2.778%真实 GitHub issue 修复Claude Opus 4.655%-GPT-5.4~72%-Kimi K2.6-主跑 SWE-Pro78% 是什么概念SWE-bench Verified 是目前公认最接近真实工程场景的评测给模型一个真实的 GitHub Issue要求自主修复并通过测试。78% 意味着每 10 个真实 BugM2.7 能修 7 个以上。工程能力全面领先BenchmarkM2.7Opus 4.6说明SWE-Pro56.22%~53%真实代码库多语言修复VIBE-Pro55.6%-端到端完整项目交付Terminal Bench 257.0%~52%系统级操作/DevOpsGDPval-AA ELO1495开源最高-知识工作任务MM Claw62.7%~Sonnet 4.6OpenClaw 真实场景Skills 遵循率97%40个复杂Skills-Agent 指令遵循MLE Bench Lite让模型参加 Kaggle 比赛这个评测最有意思模拟 22 个机器学习竞赛场景看 AI 能拿多少奖牌。模型MLE Bench Lite 奖牌率Claude Opus 4.6第一GPT-5.4第二MiniMax M2.766.6%第三第三名已经非常惊艳——这个评测几乎囊括了 AI 研发的所有环节数据处理、特征工程、模型选择、超参调优M2.7 能自主完成大部分。 三大核心能力能力一专业软件工程能力远超写个函数的层次覆盖真实工程场景# M2.7 能处理的典型任务 tasks [ 分析整个代码仓库的安全漏洞生成修复报告, 根据日志定位生产环境 Bug自动提交 PR, 重构遗留代码性能提升不低于 20%, 根据需求文档端到端实现一个完整功能模块, 对机器学习模型进行调优实现评测指标最优 ]能力二专业办公Office 三件套M2.7 对 Excel / PPT / Word 的复杂编辑能力显著提升。一个真实 Demo让 M2.7 分析一家公司的年报和电话会议记录交叉参考多份研究报告独立设计假设并构建收入预测模型最终输出 PPT 研究报告——理解、判断、交付像一个初级分析师一样工作。GDPval-AA ELO 得分1495开源模型最高。能力三Agent Teams多智能体协作M2.7 原生支持多个 AI 实例协同工作每个实例承担不同专长。一个实际运行的例子MiniMax 内部内容团队用 M2.7 驱动的 Agent Teams 完成 M2.7 自身的发布工作——研究员 Agent 做文献调研工程师 Agent 跑实验文档 Agent 写技术博客发布 Agent 处理社媒——AI 用 AI 来发布关于 AI 的内容。这个套娃让人细思极恐。 这件事真正的含义三个维度的思考维度一训练范式的根本性转变过去 AI 进步的路径是更多数据 更大算力 更好算法 更强模型 人类全程设计、监督、执行M2.7 引入的路径是基础模型足够强 → 让它参与自身训练 → 自主发现优化 → 更强的下一代 人类设定初始目标模型自主迭代这两条路径最终会导向完全不同的天花板。第一条路的天花板受制于人类工程师的时间和认知第二条路的天花板受制于算力和初始模型的能力。数学上第二条路径对应一个递归优化过程其中是模型自主发现的改进函数是当前模型,Env 是执行环境。只要这个递归稳定收敛每一代模型都比上一代更擅长改进自己——这是一个正向飞轮。维度二竞争格局的「马太效应」将加速知乎上有一段评论我觉得说得很准算力不再只是训练模型的资源而是模型自我改进的燃料。基础模型越强、算力越充足自我进化的加速度就越快。过去的技术优势会转化为自我迭代的壁垒最终形成难以逾越的马太效应——谁先掌握了高效的自进化技术谁就能在未来的竞争中一骑绝尘。简单说强的会越来越强弱的追赶窗口正在关闭。维度三一个值得认真对待的问题M2.7 的自我进化目前是在有限范围内、有明确目标的条件下进行的——优化特定评测集上的表现在 MiniMax 工程师划定的边界内运行。但随着这个能力越来越强一个问题会越来越重要我们还能不能完全理解模型优化自己这个过程里发生了什么不是要制造恐慌。而是这确实是一个技术发展到这个阶段必须认真思考的问题。 定价50 倍价差意味着什么模型输入价格/M TokenSWE-bench VerifiedClaude Opus 4.6$1555%GPT-5.4~$10~72%MiniMax M2.7$0.3078%M2.7 的输入价格是 Opus 4.6 的1/50但 SWE-bench Verified 高出 23 个百分点。对于开发者来说这意味着原本需要用 Opus 做的代码审查、Bug 修复、工程任务现在用 M2.7 可以用1/50 的成本做得更好。API 调用示例from openai import OpenAI client OpenAI( api_keyyour-minimax-api-key, base_urlhttps://api.minimaxi.chat/v1 ) # 普通模式 response client.chat.completions.create( modelMiniMax-Text-01, # M2.7 messages[ {role: user, content: 分析这段代码的潜在安全漏洞\n\n[代码]} ] ) # 高速模式结果相同速度更快 response client.chat.completions.create( modelMiniMax-Text-01-highspeed, messages[...] ) 总结 核心记忆点发布时间2026年3月18日最大亮点M2.7 自主迭代 100 轮性能提升 30%最强 BenchmarkSWE-bench Verified 78%高于 Opus 4.6 的 55%定价$0.30/M Token比 Opus 便宜 50 倍技术机制Agent Harness 闭环分析→改进→验证→保留/回滚深层意义训练范式转变人类监督 → 模型自主进化开源✅ HuggingFace 完整权重M2.7 在技术层面打了很漂亮的一拳。但比这个 Benchmark 更重要的是它背后的信号AI 正在从工具变成参与者——不仅能完成任务还能参与改进完成任务的自己。这个方向走到哪里现在谁也说不清楚。但有一点是确定的这个起点已经很难忽视了。 最后如果这篇让你看懂了 M2.7 真正在做什么点赞让更多人关注这个真正值得关注的技术方向⭐收藏API 代码和 Benchmark 随时查阅评论参与投票说说你的判断关注持续追踪 AI 前沿一个正在学 AI 的大学生 ‍相关阅读《Kimi K2.6 深夜正式发布对标 Opus 4.6刷新开源编程天花板》今日《GPT-6 深度解析200万Token Symphony架构》《Hugging Face 模型下载太慢?2026 最全 4 种加速方案对比(建议收藏)》参考资料MiniMax 官方技术博客minimaxi.com/news/minimax-m27-zh2026.03.1853AI《MiniMax M2.7: 开启模型的自我进化》腾讯云开发者社区《MiniMax 发布 M2.7首次展示模型自我进化路径》知乎《MiniMax 发布 M2.7 模型首次展示模型自我进化路径》ofox.ai《MiniMax M2.7 自我进化模型深度解读》