系统性构建Agent全栈能力的AI公司

张

张建站

2026/5/23 20:14:07

10分钟阅读

系统性构建Agent全栈能力的AI公司。逐层拆解一、Agent核心算法层4个角色Agent Harness 系统算法专家维度内容核心职责设计和实现Agent运行时框架——Agent的生命周期管理、工具调用协议、多轮对话状态机、错误恢复/回退机制、多Agent编排核心技能Python/异步编程asyncio、状态机设计、Function Calling/MCP协议、流式推理管线、沙箱安全隔离对标OpenAI Swarm/Agents SDK 的系统架构师负责Agent怎么跑起来Agent 基模后训练算法专家维度内容核心职责将通用基座模型通过SFTRLHF/DPO微调成Agent专用模型——工具调用能力注入、指令遵循增强、多步推理链训练核心技能SFT数据构建、RLHF/DPO/GRPO、Rejection Sampling、工具调用格式对齐、benchmark评估BFCL/τ-bench、分布式训练对标把DeepSeek-V3训成能稳定调用工具、执行多步任务、自我纠错的Agent模型Code Search Agent 算法专家维度内容核心职责专攻代码生成/搜索增强两类Agent——代码Agent的repo级理解多文件编辑测试驱动修复搜索Agent的多轮检索信息综合引用溯源核心技能SWE-bench优化、AST/代码图谱、RAG架构、多跳检索、幻觉抑制、长上下文推理、Terminal/Sandbox集成对标Devin/Claude Code/Cursor背后的Agent逻辑和Perplexity/Google Deep Research的搜索AgentAgent 数据引擎算法专家维度内容核心职责构建Agent训练数据的生产管线——真实用户交互→数据清洗→轨迹标注→轨迹筛选挑出高质量推理链→反哺训练核心技能数据飞轮设计、轨迹质量评估、自动化标注pipeline、困难样本挖掘、合成数据生成用强模型生成弱模型训练数据、数据去重去噪对标OpenAI的数据飞轮负责人——Agent每多一个用户模型就更强一点二、预训练通用后训练层2个角色5. 预训练数据引擎算法专家维度内容核心职责负责大模型预训练数据的全生命周期——数据源发现→爬取清洗→质量过滤→去重→配比策略→数据混合不同领域/语言的比例优化核心技能大规模数据pipelineTB-PB级、MinHash/SimHash去重、质量分类器训练、数据配比实验Dolma/DCLM/FineWeb方法论、多语言处理、版权合规对标DeepSeek的为什么用这么多中文数据、Llama 4的数据配比决定模型能力边界——这个角色决定模型的上限通用后训练算法专家维度内容核心职责负责基座模型→对齐模型的全流程SFT数据策略RM训练RL对齐能力均衡推理/创作/安全/指令遵循的trade-off不限于Agent方向核心技能SFT数据合成与筛选、Reward Model设计、PPO/DPO/GRPO、红蓝对抗、能力退化检测、多目标优化helpfulness vs safety、MoE路由与后训练的交互对标Anthropic的RLHF团队——让模型聪明但不失控三、系统推理层2个角色7. AI Infra 后端开发工程师维度内容核心职责构建Agent服务的后端基础设施——高并发推理网关、Agent会话管理、工具执行环境、消息队列、模型路由与负载均衡核心技能Go/C/Rust高性能后端、K8s/容器编排、流式协议SSE/WebSocket、Redis/消息队列、API网关设计、多租户隔离、GPU资源调度对标OpenAI/Anthropic API背后的infra团队——让百万Agent同时跑起来大模型训练系统专家维度内容核心职责大规模分布式训练的基础设施——千卡/万卡集群训练效率优化、故障自动恢复、3D并行策略调优、checkpoint/弹性训练核心技能PyTorch FSDP/DeepSpeed/Megatron、NCCL优化、CUDA性能调优、GPU集群管理、训练稳定性loss spike诊断、混合精度、FlashAttention对标Meta/Mistral/DeepSeek的训练系统团队——让万卡训练效率从40%提到60%节省几千万美元推理框架负责人维度内容核心职责负责模型推理引擎——推理加速量化/投机解码/KV-cache优化、多模型服务编排、显存管理、延迟-吞吐trade-off核心技能vLLM/TensorRT-LLM/SGLang深度定制、CUDA kernel优化、量化GPTQ/AWQ/FP8、投机解码、PD分离架构、GPU显存管理对标vLLM核心维护者/DeepSeek推理系统负责人——让千token成本从$0.01降到$0.001 整体架构图预训练数据引擎 ──→ 通用后训练 ──→ Agent基模后训练 │ │ │ 大模型训练系统推理框架 Agent Harness系统 │ │ │ AI Infra后端 ──────────┴──→ CodeSearch Agent │ Agent数据引擎(飞轮)核心逻辑预训练数据 → 通用模型 → 后训练注入Agent能力 → Harness系统跑起来 → 用户交互产生数据 → 数据引擎回灌训练 → 模型变强 → 循环。ReferenceAI Infra 后端开发工程师 — 学习路线推理框架负责人 — 学习路线Agent Harness 系统算法专家 — 学习路线