上周排查一个线上问题,半夜被报警叫醒:某个AI推理服务在流量突增时响应时间飙升,最终拖垮了整个调用链。查日志发现,下游的向量数据库偶尔会超时,而我们的Agent没有做任何容错处理,直接抛异常阻塞了后续所有请求。这个坑让我意识到,Agent架构光有聪明的“大脑”不够,还得有强健的“免疫系统”。为什么需要这三板斧?容错、重试、降级听起来像是老生常谈,但在AI Agent场景下尤其关键。传统软件的错误往往是确定性的,比如数据库连接失败、API返回错误码。而AI组件的失败更隐蔽:大模型可能返回看似合理实则错误的答案,外部API可能超时但重试就能成功,计算资源可能临时不足但稍后恢复。把这些不确定性纳入设计,系统才能从“玩具”变成“工程产品”。容错不是Try-Catch那么简单很多人以为容错就是包一层try-catch,其实真正的容错是设计出来的。看这段典型的问题代码:defquery_agent(question):# 别这样写:一错全崩answer