当AI的“记忆仓库“塞不下时，它们是怎么聪明腾地方的？

张

张建站

2026/4/22 23:30:21

10分钟阅读

这项由西蒙弗雷泽大学与哈佛大学联合开展的研究发表于2026年国际学习表征会议ICLR 2026论文编号为arXiv:2604.10539有兴趣深入了解的读者可以通过该编号查询完整论文。每当你用ChatGPT或类似的AI工具进行长对话、让它写一篇长文章或者要求它分析一份长达几十页的合同时AI其实正在悄悄承受一种你看不见的压力——它的工作记忆正在以惊人的速度膨胀。西蒙弗雷泽大学与哈佛大学的研究团队注意到了这个被大多数人忽视的瓶颈并为此提出了一套他们称之为IceCache的解决方案。以一个非常直观的比喻来理解这个问题AI在处理长文本时就像一位速记员坐在一张书桌前每读完一个词就要在桌上放一张小纸条记下这个词的相关信息以便稍后参考。对话越长桌上的纸条就越多很快就会堆满整张桌子甚至溢出到地板上。这张书桌在真实的AI系统中就是GPU显存——图形处理器上那块速度极快但容量有限的高速内存。而那些纸条专业上叫做KV缓存Key-Value Cache是AI在处理每一个词时生成并保存的中间计算结果。这个KV缓存的麻烦在于它的大小和文本长度成正比文本翻倍缓存就翻倍。当处理几万个词的长文本时仅仅这个缓存就能把高端AI服务器的显存完全塞满让系统要么崩溃报错要么急剧变慢。这不是理论上的担忧而是工程师们每天都在面对的实际挑战。IceCache的思路是既然桌子显存有限我们就必须智慧地管理那些纸条——把暂时不需要的搬到旁边的文件柜CPU内存里需要时再取回来。但取回这个动作本身也需要时间关键是如何知道哪张纸条最有可能被用到以及如何最快地找到并取回它。这两个问题正是这篇论文最核心的贡献所在。一、为什么以前的方法总是不够用在IceCache出现之前研究者们已经在努力解决这个问题但各有局限。一部分方法选择永久删除那些看起来不重要的纸条这叫做驱逐策略。比如有一种叫H2O的方法只保留那些在过去被频繁参考的词的记录还有StreamingLLM它总是保留最开头的几张纸条和最新的几张纸条中间的全部丢弃。这些方法速度很快因为删掉的东西就真的不见了不需要取回操作。但代价是一旦某张被删掉的纸条在后面突然变得重要AI就只能凭着模糊的残缺记忆工作准确性自然会下降。另一部分方法更保守它们把不常用的纸条搬到文件柜CPU内存里暂存而不是彻底丢弃这叫做卸载策略。MagicPiG、OmniKV、PQCache都属于这一类。它们保留的信息更完整但问题出在如何决定搬哪些纸条回书桌这个环节上。这些方法通常按照纸条在桌上摆放的原始顺序来管理就像图书馆按照书的进馆时间而不是书的内容来排列书架一样。当你要找一本关于某个主题的书时可能需要翻遍整个书架顺便把大量无关的书也搬下来翻看一遍。这种低效还带来另一个问题在AI进行长文本生成时比如写一篇推理分析、做多步骤的数学题或者总结超长报告需要反复参考分散在文本各处的相关信息。如果缓存的组织方式不合理每次需要某类信息时系统要加载大量无关内容速度慢准确率也低。研究团队引用了一项对这些方法的综合评测显示在长文本生成任务上现有方法的性能下降相当明显这是整个领域公认的痛点。IceCache的思路是从根本上改变纸条的整理方式不按时间顺序放而是按内容相似性聚在一起放。这个看似简单的改变带来了一系列连锁反应式的改进。二、核心创新按内容相关性而非时间顺序整理记忆理解IceCache的核心需要先理解页这个概念。在计算机的内存管理中就像超市仓库里的货架是按固定大小的格子划分的一样内存也被划分成一个个固定大小的页。每次取用数据都是以页为单位进行的——你不能只取一页中的一个词必须把整页都取出来。这套管理方式叫做PagedAttention是业界广泛使用的成熟技术。在传统方法里AI按照词的出现顺序把纸条填进格子第一格装第1到第16个词第二格装第17到第32个词以此类推。这种方式整齐但语义上毫无关联——一页里可能同时装着苹果公司的季报和苹果的营养成分它们在内容上没有任何关系只是碰巧在文本里位置相近。IceCache做的事情是在处理文本的初始阶段仔细分析每个词对应的key向量——这是AI内部对每个词语义信息的数学表达可以理解为每张纸条上凝练的内容标签——然后把内容标签相似的纸条归拢到同一格子里。如果文章里多处都在讨论财务数据那些词的纸条就会被放在同一格。如果多处在讨论产品技术相关纸条也聚在一起。这种按内容聚类的方式让IceCache在决定取哪一格时精准得多。当AI正在生成关于财务分析的内容需要参考之前的相关背景时它只需要取出那几格专门装着财务信息的页面而不是把整个书架都搬出来翻找。检索命中率大幅提升无效数据传输大幅减少。三、DCI树让记忆整理既快又能随时更新仅仅把相似内容放在一起还不够还需要一套高效的机制来管理这些聚类并在AI持续生成新内容时随时维护这个结构。为此研究团队设计了一个叫做DCI树的层级数据结构这是整套方案的技术骨架。DCI树可以用图书馆的分类体系来理解。顶层是最宽泛的大类比如科学向下一层分成更细的中类比如物理、化学、生物再向下是小类比如量子物理、有机化学等最底层才是具体的书词的纸条。当你要找一本关于量子纠缠的书时不需要从第一本书翻到最后一本而是先找到科学大类再找到物理再找到量子物理最后在这个小范围内精确定位。每一层都大幅缩小了搜索范围。在技术实现上这套结构基于一种叫做多层动态连续索引M-DCI的算法是研究团队在前人工作P-DCI算法基础上的扩展。构建树的时候首先把所有词的内容标签key向量做一个数学变换让原本计算内积相似度的问题转化成计算欧几里得距离的问题这样更容易利用各种高效的近邻搜索算法。然后通过一种随机晋升机制构建层级所有词先放在最底层然后随机抽取一部分词晋升到上一层再从这部分中随机抽取更少的词晋升到再上一层如此类推形成一个金字塔结构。每个词都被分配了一个父节点就是上一层中和它内容最相似的那个词。这种层级关系形成的聚类在物理内存上直接对应到一个个页——同一个父节点下的词被存储在同一页里。这套结构还有一个关键特性它支持高效的动态更新。当AI生成了新的词这个词的纸条也要被加入到体系中。DCI树不需要推倒重建只需要根据新词的内容标签用同样的随机晋升机制决定它放在哪一层然后在该层找到内容最相似的父节点把它挂上去就好了。这种增量更新的能力解决了之前方法在长文本生成任务中随着时间推移性能越来越差的问题——旧方法的组织结构是静态的新生成的内容无法有效融入导致越往后找到相关内容的概率越低。IceCache的树结构则始终保持语义上的有序性。四、两项工程优化批量传输与流水线并行搞清楚怎么找到需要的纸条之后还有一个同样重要的工程问题怎么把纸条从文件柜CPU内存搬回书桌GPU显存的速度尽量快。第一项优化叫做批量加载。CPU和GPU之间的数据传输通道PCIe总线就像一条高速公路每次启动一次传输都有固定的过路费延迟开销。如果每次只搬一张纸条来回折腾的开销会把实际传输的收益全部吞噬。IceCache的做法是先把所有需要的纸条集中到一个临时集中区CPU预加载缓冲区打包成一个整体通过一次高吞吐量的传输送到GPU的缓冲区再从那里散开分配到各自的位置。这就像搬家时不是一件件家具来回跑而是把所有东西装进一辆大卡车一次性运过去大幅提升了传输效率。第二项优化叫做流水线并行。在没有优化的情况下AI处理文本的流程是串行的先计算一层再把这层的缓存传到CPU再建立索引再计算下一层如此往复等待时间层层叠加。IceCache重新设计了这个流程让不同的操作同时进行。具体来说当GPU正在计算第i1层的注意力时CPU同时在对第i层刚刚传来的KV数据建立DCI树索引而PCIe通道同时在传输第i层的数据。三条流水线并行推进把原本需要串行等待的时间大幅压缩。研究论文中专门用图示对比了串行工作流和流水线工作流后者的端到端处理延迟明显更短。五、实验数据说话IceCache在多项测试中表现如何研究团队在四个不同的语言模型上测试了IceCache涵盖了不同规模和不同架构70亿参数量级的Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2、LongChat-7B-v1.5以及320亿参数量级的Qwen3-32B。测试使用了A100和H100两种高端GPU软件环境包括CUDA 12.2和PyTorch 2.4.1。第一项测试叫做密钥检索是一个专门考验长程记忆的任务在一段长达十万个词的文本里随机某个位置藏了一串密码AI需要找出来。这是对缓存管理能力最极端的考验因为密码可能藏在文本的任何位置AI必须保留对全文任意位置的有效访问。测试了10000词到100000词不同长度以及256、128、64三种不同的缓存预算大小即最多保留多少个词的缓存。结果是无论哪种预算大小无论密码藏在哪个位置IceCache都实现了100%的检索准确率。这意味着即便只保留64个词的缓存预算IceCache依然能精准找到藏在十万词文本里的任何一串密码。第二项测试是LongBench一个业界标准的长文本理解综合评测涵盖了单文档问答、多文档问答、文本摘要、少样本学习、合成任务、代码生成六大类共十六个子任务。在Llama-3.1-8B模型上使用256的缓存预算IceCache平均得分49.0分而同等预算下最强的竞争对手PQCache只有47.3分。更引人注目的是即便IceCache只用64的缓存预算是PQCache预算的四分之一得分依然达到47.8超过了用256预算的PQCache。换个角度理解IceCache用四倍更省的资源取得了更好的结果。而完整缓存不做任何压缩的得分是49.5IceCache以256预算距离这个上限只差0.5分接近于理论最优的性能。在Mistral-7B模型上也观察到类似规律256预算下IceCache得41.7分比最强基线MagicPiG39.1分高出2.6分。对于更大规模的Qwen3-32B64预算下的平均分42.2是完整缓存43.4分的97.2%256预算下则达到43.1分保留了99.3%的性能。对于使用标准多头注意力而非更先进的分组查询注意力的LongChat-7B-v1.564预算保留了96.3%256预算保留了99.4%。这两项额外测试验证了IceCache在不同模型规模和不同架构上都能有效工作。第三项测试是GSM8K数学推理用的是链式思维提示方式让AI一步步展示解题思路而不是直接给答案。这类任务特别考验长文本生成能力因为AI需要始终保持对前面推理步骤的一致性和记忆。使用10%的缓存预算IceCache在Mistral-7B上达到47.4%的准确率最强基线PQCache是46%完整缓存是48.2%。IceCache填补了压缩缓存与完整缓存之间超过90%的性能差距。在延迟表现方面研究团队在36000词的序列上进行了详细测量。在第二个词的生成时间TT2T反映初始处理速度上IceCache需要7.7秒引入层间索引复用技巧后的加速版本IceCache(reuse)降到5.9秒与OmniKV的5.8秒相当优于PQCache的13.3秒而精度更高。每个生成词的平均时间TPOT上IceCache(reuse)是0.06秒PQCache是0.13秒OmniKV是0.05秒IceCache在速度和精度之间的平衡点上表现突出准确率相对完整缓存达到99%同时速度远快于PQCache。对TPOT的详细分解显示在总共0.11秒的延迟中DCI查询占0.05秒LLM解码本身占0.04秒CPU到GPU的数据传输只占0.015秒其余杂项开销0.005秒——传输开销被高效的批量加载压缩到了相当低的水平。第四项测试在超长上下文场景下进行使用RULER基准测试在150000词、200000词、250000词三个极端长度下测试了单针查找、多键查找和问答三类任务使用的模型是Qwen3-4B-Instruct。结果显示IceCache和加速版IceCache(reuse)在所有任务和长度下的准确率都与完整缓存持平甚至在部分任务上略有超出例如250000词时多键查找IceCache得93分完整缓存得91分。更重要的是随着序列长度从150000增长到300000词完整缓存的每词解码延迟急剧攀升而IceCache和IceCache(reuse)的延迟增长则平缓得多展现出更好的可扩展性。研究团队还专门在LongGenBench上进行了测试这是一个专注于长文本生成质量的基准区别于长文本理解。使用Llama-3.1-8B配合256预算IceCache的平均准确率0.331完整缓存是0.324PQCache是0.273。IceCache不仅显著优于PQCache甚至在这个指标上略微超过了完整缓存表明语义聚类的组织方式在某些生成任务上确实带来了质量上的提升。六、一些值得了解的技术细节研究团队将文本中的词分成三类最开头的锚点词sink tokens通常是特别受注意力关注的开头标记、最新生成的窗口词以及中间所有其他词。锚点页和窗口页始终保留在GPU上不做卸载确保AI在生成时对最近的上下文有即时访问能力。只有中间大量的历史词的缓存会被搬到CPU并由DCI树管理。对于使用分组查询注意力GQA架构的模型如Llama和Mistral多个查询头共享同一组keyIceCache会计算同一组内所有查询头选出的页面的并集统一使用减少重复加载。索引的数学变换TK和TQ公式是一个经过精心设计的技巧通过对key向量做归一化处理增加一个额外维度使得原本的内积相似度计算等价于欧几里得距离计算从而能够利用DCI算法高效完成近似最近邻搜索避免了暴力遍历所有词的高计算代价。IceCache的流水线设计注意到了一个重要的隐藏机会DCI树的构建是CPU密集型操作而注意力计算是GPU密集型操作两者使用的硬件资源不同天然可以并行。通过精心安排操作顺序研究团队让构建索引的CPU操作与GPU的计算完全重叠使得索引构建的时间开销几乎完全被隐藏掉。说到底这项研究做的事情是把一个看似是工程优化的问题用更聪明的数学结构来解决。以前的方法把效率问题交给更快的传输速度或更激进的删减策略而IceCache的回答是在信息还没丢失之前先把它们整理成更容易被找到的形式。这个思路的转变使得用更少的资源维持更高质量成为可能。对于普通用户来说这意味着未来的AI助手在处理你给它的长篇报告、法律文件、学术论文或者长对话时可以用更小的内存占用维持更高的准确性响应速度更快在资源有限的设备上也能有更好的表现。对于AI服务提供商来说这意味着同样的硬件可以同时服务更多用户或者在相同成本下处理更长的任务。归根结底让AI变得更聪明有两条路一是让它的大脑更强二是让它更会利用现有的大脑空间。IceCache走的是第二条路而且走得相当扎实。如果你对技术细节感兴趣可以通过arXiv:2604.10539找到完整论文。QAQ1KV缓存是什么为什么会成为AI的瓶颈AKV缓存是AI在处理文本时生成并保存的中间计算结果相当于AI的工作记忆。它的问题在于大小和文本长度成正比文本越长占用的显存越多。处理几万个词的长文本时KV缓存可能把整个GPU显存塞满导致系统崩溃或速度急剧下降。这是当前长文本AI推理的核心瓶颈之一。Q2IceCache和以前的KV缓存管理方法有什么本质区别A最核心的区别在于组织方式。以前的方法按词在文本中的原始出现顺序存储缓存导致语义相关的词分散在各处查找时要加载大量无关内容。IceCache通过DCI树结构把内容语义相似的词的缓存聚集在同一个内存页里查找时精准命中减少了无效数据传输用更少的缓存预算维持了更高的准确率。Q3IceCache在实际测试中能节省多少显存准确率损失大吗A根据论文的测试结果IceCache使用仅64个词的缓存预算是对比方法的四分之一在LongBench评测上的得分仍然超过使用256预算的最强竞争对手PQCache。使用256预算时准确率达到完整缓存的99%以上。在超长文本25万词场景下准确率与完整缓存持平但解码延迟增长速度远低于完整缓存方案。