文章核心总结该研究聚焦持续强化学习(Continual RL)中的稳定性-可塑性困境,提出将价值函数分解为永久价值函数(缓慢积累通用知识)和瞬时价值函数(快速适应当前任务)的双组件框架,灵感源自神经科学中的互补学习系统(CLS)理论。理论上证明了该框架是时序差分(TD)学习的严格泛化,能兼顾知识留存与快速适应;实证上在预测、控制任务及多个环境(网格世界、Minigrid、JellyBeanWorld等)中显著优于传统TD/Q学习及变体,且可与现有持续RL方法互补结合。主要创新点价值函数双组件分解:首次在通用持续RL场景中,将价值函数拆分为永久(捕捉跨任务通用结构)和瞬时(修正当前任务差异)组件,解决单一价值函数难以平衡稳定性与可塑性的问题。理论支撑与泛化性:证明了方法是TD学习的泛化形式,推导了双组件的收敛特性(永久组件收敛于任务价值函数期望,瞬时组件学习任务特异性差异),且不依赖特定函数逼近器。灵活适配两类场景:提出半持续(已知任务边界)和全持续(无任务边界,通过超参数控制组件更新频率与衰减)两种算法版本,适配不同持续学习需求。实证有效性验证:在表格型、线性逼近、深度网络等多种函数逼近器,以及预测、控制两类任务中验证,均展现更低误差和更快适应速度。翻译部分(Markdown格