DeepSeek V4 的社区实测如何?从倒数第一到碾压全场的逆袭
DeepSeek V4 的社区实测如何从倒数第一到碾压全场的逆袭最近在 Reddit 上看到一个非常有意思的实验一个「7 个 AI 代理用 $100 构建创业公司」的比赛。这不仅是一场有趣的竞赛更是一次对大模型真实编程能力的极限压力测试。而 DeepSeek 的表现堪称戏剧性——从 V3 的垫底到 V4 Pro 的全场最佳。实验背景7 个 AI 代理的创业大赛这个比赛的核心规则很简单7 个不同的 AI 代理每个代理只有 $100 预算目标从零开始构建一个能运行的创业项目比较维度代码质量、功能完整性、商业可行性这种设定让模型的「真实能力」无处遁形——不是回答选择题而是真正去写代码、做决策、解决实际问题。V3 Aider灾难级表现DeepSeek V3 在这场比赛中排名倒数第一。具体数据如下指标数值会话数24 个提交数136 次网站状态404 错误vercel.json 配置问题最大问题卡在 Stripe 集成循环中没有 API key 却反复修改结账代码文件命名错误创建了以 Aider 输出命名的文件如Ill now output the SEARCH/REPLACE blocks.scripts/build.js帮助请求零次最致命的是最后一点其他获胜的代理都会主动请求帮助但 V3 在 24 个会话中从未发出过一次帮助请求。这说明什么模型缺乏「知道自己不知道什么」的元认知能力。它不知道自己需要 Stripe API key所以就在错误的道路上越跑越远。V4 Pro OpenCode涅槃重生就在 V3 翻车的同时DeepSeek 发布了 V4 Pro并原生支持 OpenCode。比赛作者决定给 DeepSeek 一次「翻身」的机会——清空仓库从头开始。结果令人震惊V4 Pro 的第一个会话就成为整个比赛中表现最好的 Day 1。第一个会话的成果头脑风暴生成了 10 个创业点子用 5 个维度评分详细推理淘汰了 5 个项目选择最终选定Spyglass——面向独立开发者的竞品情报工具定价$29-199/月市场定位企业级竞品工具动辄 $1K-10K/月没有服务 indie founder 的产品页面构建单次会话建成 10 个页面落地页、关于、定价、博客、隐私政策、服务条款、404、sitemap、robots.txt、favicon主动求助立即提交了帮助请求说明需要域名、Stripe API key 等三个会话后的完整成果组件状态上线网站✅落地页✅吐槽我竞品演示工具✅SEO 博客文章3 篇数据库 Schema✅爬虫基础设施设计✅告警系统✅技术配置作者的配置如下opencode run-mdeepseek/deepseek-v4-pro --dangerously-skip-permissionsV4 Pro用于重要会话深度思考、架构设计V4 Flash用于低成本会话简单任务配额每天 7 个会话2 个 Pro 5 个 Flash配置方式在~/.config/opencode/opencode.jsonc中添加自定义 provider指向https://api.deepseek.com使用ai-sdk/openai-compatible包成本作者提到最初的两次运行大约只花了$0.60。核心差异分析V3 为什么失败工具链问题V3 使用的是 Aider而 V4 Pro 使用 OpenCode。不同的编码代理会极大影响表现。元认知缺失不知道自己不知道什么在错误方向上持续投入。缺乏规划能力没有先做需求分析直接开始写代码。错误恢复能力弱遇到问题后无法调整策略。V4 Pro 为什么成功强规划能力先头脑风暴 10 个点子系统化评估后才动手。主动求助知道自己的边界第一时间请求外部资源。架构思维不是直接写代码而是先设计数据库 schema 和系统架构。迭代效率单次会话就能产出可用的产品骨架。一些争议在评论区有人指出“你的问题在于用的是 Aider。应该在相同环境下重新测试 V3。”这个批评是有道理的。V3 Aider vs V4 Pro OpenCode变量太多很难说是模型本身的进步还是工具链的差异。但无论如何V4 Pro 的表现确实令人印象深刻。它展示了一个成熟的编码代理应该有的样子知道自己要做什么先规划知道自己不知道什么主动求助知道如何高效执行架构优先总结这个社区实测揭示了一个重要趋势大模型正在从「能写代码」进化到「能做工程」。写代码只是工程的一小部分。真正的工程能力包括需求分析架构设计资源协调迭代调整边界感知V3 的问题不在于它写不出代码——它写了 136 次提交——而在于它在错误的方向上疯狂奔跑。V4 Pro 的突破在于它具备了「停下来思考」和「知道何时求助」的能力。对于我们使用者来说这个实验也提供了一个重要的启示选择正确的工具链和选择正确的模型一样重要。Aider 和 OpenCode 的差异可能比 V3 和 V4 Pro 的差异还要大。相关链接原帖Reddit r/DeepSeek比赛实时看板详细技术文章所有 7 个参赛项目的代码仓库均为开源可在 GitHub 查看