随着记忆的增加如果不对记忆进行压缩形成摘要那么检索的速度只会越来越慢假设记忆库中有10条记忆时检索的时间是10ms那么增加到110条时检索时间大概就是110ms而在实际的使用中记忆库动辄就会达到几十万几百万的量级要是真的这么慢那agent也不会有人用了。关键点与关键词在用代码实现摘要的过程中有一些可能会令人混淆的概念记忆摘要生成时的关键点以及摘要质量评估时的关键词。这两个听起来差不多但是实际的逻辑却完全不一样。前者是agent用聚合原理将相同主题或者相同会话的记忆聚合为一个个簇每个簇摘要形成内容、来源、压缩率关键点和时间。这里的关键点是LLM根据记忆内容提取出来的关键点比如做了数据报告学习了数据分析等。而摘要质量评估中的关键词主要是用在评测摘要对于来源中记忆的覆盖率检测。这里的关键词是我们在学习RAG中粗排的关键词匹配是直接分词后做的关键词提取防止摘要过于抽象而忽略一些细节比如摘要里说浪费了大量token但是这个给人的感觉其实是可以在接受范围里的无非就是成本大一点但是如果换成几十万token那这就是一场事故了需要引起重视。可用性在质量评估中通过检查摘要形成的长度来判断可用性通俗点说就是形成的摘要要适中一些。这听起来有点反直觉因为从字面理解可用性应该是在后续的检索召回中对用户提问来说有没有用。但实际上这个是从形成摘要的出发点来理解的。我们一开始想要形成摘要不是为了更便捷地储存信息毕竟除了检索速度变慢以外无论是什么形式的压缩都会或多或少地丢失信息。所以最直观的就是要减少记忆所花的空间的同时保留有用信息。那么长度其实就能透露这个重要的细节太短的摘要不管怎么概括怎么浓缩受到篇幅的限制怎么都做不到完美就像限定了只能用一百个字来概括一份报告就是会比四百字的概括少很多细节。而比较长的摘要在检索召回时又会挤占很多上下文窗口还是会降低很多检索速度既然如此那还不如不压缩。