Google 今天发布了什么？以及为什么 MinerU 突然成了 Agent 时代的关键底座

张

张建站

2026/4/23 11:20:20

10分钟阅读

Google 今天发布了什么？以及为什么 MinerU 突然成了 Agent 时代的关键底座

今日热点 · 2026.04.23| Google Cloud Next 26 开幕TPU 8 双芯片、Gemini Deep Research Agent 正式发布MinerU2.5-Pro 论文同日挂上 arXiv用数据工程打败 200 倍参数的大模型。今天有两件事值得认真说一件发生在拉斯维加斯一件发生在 arXiv。放在一起看它们讲的是同一个故事——Agent 时代的基础设施正在被重新定义。一、Google 今天发了什么Google Cloud Next 26 在拉斯维加斯开幕核心发布集中在三件事1.1 TPU 8训练和推理第一次分开造Google 第八代 TPU 做了一个在芯片设计史上少见的决定——把训练和推理拆成两颗完全不同的芯片TPU 8t训练专用代号 Sunfish与 Broadcom 联合设计单 Superpod 扩展至9,600 颗 TPU2 petabytes 共享高带宽内存算力 121 exaflops/pod比上代 Ironwood提升 3 倍性能/瓦特提升 2 倍TPU 8i推理专用单 Pod 1,152 颗 TPU 互联每颗 288 GB HBM 384 MB 片上 SRAM专为低延迟 Agent 推理优化性能/美元比上代提升80%SRAM 扩大 3 倍减少内存墙问题为什么拆开训练追求吞吐量推理追求延迟。同一颗芯片两边都要兼顾结果两边都不极致。Google 这次直接按场景造芯片——这是Agentic Era对基础设施的反压Agent 要实时响应推理延迟容不得妥协。1.2 Gemini Deep Research Agent从搜索引擎到数字分析师这次 Google 把 Deep Research 从消费产品拉到了企业 API同时发布了两个版本Deep ResearchDeep Research Max定位通用研究任务长程复杂分析数据源公开网络公开网络私有数据库MCP成本标准~GPT-5 Pro 的 10%并行准确率72.2%89.5%pass8真正重要的一点MCP 协议支持私有数据接入。以前 Deep Research 只能搜公开网页。现在通过 MCP它可以直接查内部文档库、企业 ERP、Bloomberg 终端、FactSet——数据不出原始环境合规。某投行试点数据接入彭博终端后AI 自主完成上市公司财报交叉验证错误率比人工团队降低42%。1.3 一个被低调提及的数字Google CEO 桑达尔·皮查伊在主题演讲里提到Google 75% 的新增代码现在已经由 AI 生成。这不是 Demo是内部实际数字。程序员没有消失但写代码这件事正在变成审代码。二、MinerU2.5-Pro今天挂上 arXiv 的反直觉结论就在今天MinerU 团队在 arXiv 发布了 MinerU2.5-Pro 的技术论文arXiv:2604.04771。标题很直接Pushing the Limits of Data-Centric Document Parsing at Scale核心结论只有一句话模型架构一行没改1.2B 参数靠纯数据工程打败了参数量 200 倍于它的 Qwen3-VL。2.1 它做了什么训练数据从不足 1000 万页扩展到6550 万页同时引入了三套数据工程方法2.2 为什么这个结论重要大模型圈有一个根深蒂固的信仰参数越大越强。MinerU2.5-Pro 的论文用一个数字正面打了这个信仰的脸1.2B 参数 235B 参数在文档解析这个专项任务上。论文里有一个细节值得特别注意研究者发现不同架构、不同参数规模的模型在同一批难样本上会犯完全相同的错误。这意味着什么瓶颈不在架构不在参数在训练数据里没有这类样本。就像不同科的医生对同一种罕见病都束手无策——不是能力问题是见过的病例太少。文档解析这个领域堆参数不是答案数据质量才是。2.3 和 Google Deep Research 的连接Google Deep Research Max 今天最大的升级是接入私有数据库。但它能不能真正读懂企业私有文档取决于一个前置问题文档有没有被正确解析成结构化数据。如果企业的 PDF 财报进入知识库前没有被正确解析——表格乱码、公式截图、多栏错位——那 Deep Research 拿到的就是垃圾研究结论再智能也没用。这就是 MinerU 和今天 Google 发布的东西之间的关系文档解析是 Agent 时代的知识输入层。这一层烂掉上面所有 Agent 都是白搭。三、MinerU MCP Server直接接进 Agent 工作流说到 MCPMinerU 也有自己的 MCP Server可以直接接入 Claude Code、Cursor 等 Agent 工具# 安装 MinerU MCP Serverpipinstallmineru-mcp# 或用 uvx推荐免全局安装uvx mineru-mcp在claude_desktop_config.json里注册{mcpServers:{mineru:{command:uvx,args:[mineru-mcp],env:{MINERU_TOKEN:your_api_token}}}}接入后你可以在 Claude Code 里直接说帮我解析这份财报 PDF提取所有表格整理成结构化 JSON 然后分析 2024 年各季度营收变化趋势Claude Code 会自动调用 MinerU MCP 解析文档拿到结构化结果再执行分析。整个链路不需要你手动写一行解析代码。四、今天发生的事合在一起说明什么今日事件核心变化对开发者的意义Google TPU 8t/8i 双芯片训推分离推理延迟大幅降低Agent 实时响应成本下降规模化部署变可行Gemini Deep Research Max MCP公开数据私有数据库打通企业知识库终于能喂给 AgentRAG 进入实用阶段MinerU2.5-Pro 论文发布1.2B 参数靠数据工程超越 235B 模型文档解析的瓶颈不是模型大小是训练数据质量MinerU MCP Server文档解析直接接入 Claude/Cursor 工作流零代码接入文档处理变成 Agent 的原生工具Agent 时代的基础设施正在完成最后几块拼图算力层Google TPU 8i 解决推理延迟模型层Kimi K2.6、Claude Opus 4.7、Gemini Deep Research 解决任务复杂度数据层MinerU 解决文档结构化输入质量三层都就位了剩下的问题只有一个你的私有数据准备好了吗五、今天能做的一件事如果你有文档需要接入 Agent 工作流3 分钟可以试跑一下# 安装 MinerUpipinstallmineru# 解析一份 PDF精度优先模式mineru-pyour_report.pdf-o./output--modeprecision# 输出# output/your_report.md ← 结构化 Markdown可直接喂 LLM# output/images/ ← 提取的图表# output/your_report_middle.json ← 含坐标供二次开发然后把.md文件丢给 Claude Code 或者接入 Deep Research Max看看 Agent 能从你的文档里挖出什么。

Topit终极指南：让Mac窗口置顶的完整解决方案

Topit终极指南：让Mac窗口置顶的完整解决方案【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶项目地址: https://gitcode.com/gh_mirrors/to/Topit 你是否经常在多个应用窗口间来回切换，却总是…...

2026/4/23 11:18:18 阅读更多 →