人工智能实战:长上下文为什么越长越差?从前期发现答案跑偏到分块阅读、摘要压缩与证据选择一、问题场景:上下文塞得越多,AI 反而越答不准很多团队做 RAG 或文档分析时,会有一个直觉:给模型的资料越多,答案越准。于是把大量内容塞进 Prompt:20页文档 30个 chunk 完整历史对话 工具返回结果 系统提示结果却发现:1. 答案跑偏 2. 关键资料被忽略 3. 模型引用不相关段落 4. 成本暴涨 5. 延迟明显上升 6. 无答案问题反而开始编我见过一个文档问答系统,TopK 从 5 调到 30 后,召回覆盖率看似提高,但最终准确率下降。根因是:模型拿到太多弱相关资料,关键证据被稀释。本文解决的问题是:如何治理长上下文,让模型看到“足够且必要”的证据,而不是把所有内容都塞进去。二、前期如何发现长上下文问题?观察这些指标: