Step 3.7 Flash开源模型实测 – 多模态 Agent 大脑更省Token
大家好这里是K姐。一个帮助你把AI真正用起来的女子。很难想象企业使用 AI 的成本已经远远超过了雇佣员工的成本。上周Axios 报道里提到一位 AI 顾问透露他的某家企业客户因为没有给员工的 Claude 许可证设置使用上限在短短一个月内花掉了惊人的 5 亿美元。米哈游员工在测试 AI Agent 时因为搭了几十个 Agent 没及时关一晚上烧光了约 200 万人民币的 Token。多个 Agent 协同的生产链路多轮调用、工具高频触发带来的 Token 消耗和延迟开销正在成为企业难以承受的负担。所以这也是为什么最近各家都在推 Flash 模型。Flash 模型现在已经不只是旗舰模型更快、更便宜的平替。而是能放进 Agent 工作流里让每一步都更快、更稳、更省。最近阶跃星辰推出了新一代高效率 Flash 开源模型Step 3.7 Flash。官方介绍里Step 3.7 Flash 是 198B 参数稀疏 MoE 多模态模型每个 token 激活约 11B 参数支持 256K 上下文最高吞吐可达 400 tokens/s也支持 low、medium、high 三档推理强度。我们更关心它在真实复杂场景下的 Agent 链路效率。今天咱们抛开评分和排行榜用真实的场景来实测一波实测 Coding Agent 的 One-shot 表现本次实测用到的是 Claude Code StepFun 的 Coding Plan。Case 1 多模态感知与 UI 执行力我随手画了一张草图让 Step 3.7 Flash 做一个电商运营复盘看板。参考草稿图做一个电商运营复盘看板。Step 3.7 Flash 将视觉理解内置进 Agent 工作流模型能准确识别草图中的手写文字和空间布局。将草图转化为符合现代审美、带自适应响应式的 HTML/CSS / JS 看板应用。生成的网页还原度超级高和我手绘的草稿几乎一模一样页面板块、文字都识别的非常准确我画的小箭头、小图标都被还原出来了。不过渠道销售额板块最上方应该有一个“全部”选项Step 3.7 Flash 遗漏了。我们继续让它根据草图优化页面继续优化页面渠道销售额板块与原图有出入。按照原图排版在上方添加【全部】选项。Step 3.7 Flash 的多模态能力不只是停在看懂图片可以直接定位到需要修改的地方准确修改。Case 2 视觉搜索与工具增强推理今天比亚迪公布了 5 月份的产销快报我们让 Step 3.7 Flash 识别试试读取图片中的关键信息并联网生成分析报告。这个任务不是单纯 OCR 识字而是看 Step 3.7 Flash 能不能做到先提取关键数据再联网验证背景最后输出一份可读的分析报告。Step 3.7 Flash 识别的信息非常精准。我们一起来看看生成的报告Step 3.7 Flash 抓到了几个重点内容都很准确比亚迪 2026 年 5 月新能源汽车销量为 383453 辆新能源汽车产量为 380549 辆。1月到 5 月累计同比下降 20.32%5月产量增长 8.78%销量增长 0.26%有明显回暖是重要的拐点产销两端都在恢复性增长。5 月出口占新能源汽车总销量的 41.9%出口成为比亚迪最重要的增长引擎之一。Case 3 视觉理解我上传了一张调音台照片问它麦克风怎么调。Step 3.7 Flash 识别出这是 NFM M系列 专业调音台还了解了调麦克风要看通道、GAIN、FADER、MUTE、AUX、主输出这些关键位置。对普通小白来说Step 3.7 Flash 给出的流程基本能指导人排查“为什么麦克风没声”、“声音太小”、“有啸叫”等等问题。尤其是提醒先看 MUTE、再看增益、再推通道推子、再检查主输出视觉理解非常厉害逻辑也对。Case 4 图片转互动地图请将文件夹中的图片直接作为输入不提供额外背景说明。请一次性完成整个工作流程。目标 创建一个完整的、可演示的单页 HTML 城市导览页面文件名 ucsd-tour.html。页面要求能够1.识别提供的图片中的地标。2.通过网页搜索验证识别结果。3.将图片复制到当前工作目录并按合适名称保存。4.构建一个美观、交互式的地图式城市导览指南。重要输入规则仅使用直接提供的图片作为输入。不扫描文件夹或目录寻找额外图片。不导入当前目录中无关的图片。将提供的图片视为完整的图片集。网页整体看是那么回事有首页、地图、地点介绍、导览路线图排版也不错。Step 3.7 Flash 能准确的识别出 7 个地点说明视觉理解和网页搜索能力是过关的。不过仔细一看地标名字和图片并没有对应上模型在多文件管理、路径映射、资源命名方面可能不够严谨。再看看 Step 3.7 Flash 生成的地图只是初步画了个方位并没有地图地标的方位也和实际的地理方位有偏差。整体来说Step 3.7 Flash 只完成了核心的识别任务细节处理还有提升空间。一些分享Step 3.7 Flash 在实际交互中给我最直观的感受就是响应速度快。虽然在面对多文件映射、精确的空间逻辑等复杂任务时偶尔有一些细节还有提升空间但 Step 3.7 Flash 的高响应速度和多模态感知的结合在多轮交互中展现出了高效的纠错能力从而以较低的延迟与成本为复杂的 Agent 链路换取了更大的容错空间。本次评测的实际消耗的 Token 仅占 Coding Plan 套餐周额度的 15% 左右。得益于 MoE 架构的成本优势即便 Agent 在长工作流中面临高频的多轮迭代、检索和纠错其算力成本依然能保持在企业完全可承受的区间内。有了 Step 3.7 Flash 这样面向生产级 Agent 的高效率 Flash 模型Agent 在应对真实任务时能够以更快、更稳、更省的方式跑通整个工作流而不再是令人望而却步的 Token 吞噬兽。大模型应用正在走向务实。当企业不必再为高昂的账单与延迟感到焦虑时AI 才能真正从单点展示的玩具转化为工业级生产线上稳定运转的生产力工具。作者K姐投稿邮箱tougaokseek.ai