NeurIPS2025 | 开放集下的联邦域适应
论文**Gains: Fine-grained Federated Domain Adaptation in Open Set** 作者Zhengyi Zhong, Wenzheng Jiang, Weidong Bao, Ji Wang, Qi Wang, Guanbo Wang, Yongheng Deng, Ju Ren 会议NeurIPS 2025 代码https://github.com/Zhong-Zhengyi/Gains## 1. 写在前面传统联邦学习通常默认一个相对“封闭”的训练环境客户端数量固定类别空间固定数据分布虽然可能非独立同分布但整体任务边界不会突然变化。然而真实场景往往不是这样。比如物联网、移动端、边缘设备或者跨机构协同学习中新的客户端会不断加入系统。新客户端可能只是来自一个新的数据域也可能带来原有模型没见过的新类别。这就使联邦学习从“静态训练问题”变成了一个更加开放的持续适应问题。这篇论文提出的 **Gains**正是面向这种开放环境的联邦域适应方法。它试图解决两个核心问题1. **知识发现**新加入的客户端到底有没有带来新知识2. **知识适应**如果有新知识如何快速整合进全局模型同时不损害原有源域客户端的性能更重要的是Gains 不是粗粒度地判断“有无变化”而是进一步区分新知识属于 **类别增量** 还是 **域增量**从而采用不同的聚合策略。## 2. 背景为什么开放环境下的 FDA 更难联邦域适应即 Federated Domain Adaptation主要关注在数据不能集中共享的前提下让模型适应不同客户端之间的分布差异。已有 FDA 方法大多假设环境相对封闭参与客户端、类别空间和任务范围基本固定。可是在开放环境下新客户端持续到来系统会遇到更复杂的变化- 新客户端可能来自新的数据域例如 MNIST 到 SVHN、Books 到 Kitchen- 新客户端可能包含原来没有出现过的类别- 新数据需要被快速吸收到全局模型中- 适应新客户端时不能让原有源域客户端性能大幅下降。已有方法往往只能处理其中一部分。例如有的方法关注目标域性能但容易牺牲源域性能有的方法能够处理类别增量却无法很好地区分域增量还有的方法收敛较慢难以满足快速适应需求。Gains 的设计目标可以概括为一句话 在开放联邦学习环境中对新知识进行细粒度识别并通过贡献驱动聚合实现快速、平衡的知识适应。## 3. Gains 的核心思想Gains 将模型拆成两个部分- **Encoder**负责提取特征- **Classifier**负责分类决策。论文中的一个重要观察是- Encoder 提取出的特征对 **域变化** 更敏感- Classifier 的参数变化对 **类别增量** 更敏感。基于这个现象Gains 使用两个差异指标来判断新客户端带来的变化- DiffF源模型和目标客户端训练后模型在公共数据上的特征差异- DiffC源分类器和目标分类器之间的参数差异。判断逻辑如下| 判断条件 | 含义 || --- | --- || DiffF TF | 没有明显新知识直接使用原模型推理 || DiffF TF 且 DiffC TC | 新客户端带来类别增量 || DiffF TF 且 DiffC TC | 新客户端带来域增量 |其中 TF 是发现新知识的阈值TC 是判断类别增量的阈值。这个设计的好处是Gains 不只是检测“新客户端不一样”而是进一步判断“不一样在哪里”。这种细粒度识别会直接影响后续聚合方式。## 4. 方法框架Gains 包含两个主要阶段1. **Fine-grained Knowledge Discovery细粒度知识发现**2. **Contribution-driven Knowledge Adaptation贡献驱动知识适应**### 4.1 细粒度知识发现当一个新客户端加入时服务器首先将源域全局模型分发给该客户端。新客户端在本地数据上进行若干轮训练然后上传更新后的模型。服务器拿到目标客户端模型后将源模型和目标模型都拆分为 Encoder 和 Classifier。接着服务器使用一个公共数据集分别输入源 Encoder 和目标 Encoder计算特征变化 DiffF同时计算分类器参数变化 DiffC。论文中使用的直观解释是- 如果特征变化很大说明目标客户端的数据分布和源域不同可能引入了新知识- 如果分类器参数变化也很大说明这种新知识很可能对应新的类别- 如果特征变化大但分类器变化不明显则更可能是新域带来的分布变化。这种判断方式非常简洁但很有启发性它把神经网络不同组件的敏感性用于开放环境下的知识识别。### 4.2 域增量场景贡献驱动聚合如果新客户端带来的是域增量Gains 认为与目标域越相似的源客户端对目标域适应越有帮助。因此在聚合时Gains 不再简单使用 FedAvg 那种按数据量平均的策略而是根据源客户端对目标客户端的贡献来动态分配权重。具体来说- Encoder 聚合使用基于特征差异的贡献计算- Classifier 聚合使用基于参数差异的贡献计算- 与目标域越接近的源客户端获得更高聚合权重。这样做的直觉是如果某些源客户端本身就和目标客户端更相似它们的模型更新对目标域迁移更有价值应该在聚合中占据更高比例。### 4.3 类别增量场景通道级分类器补充如果新客户端带来的是类别增量Gains 的处理方式略有不同。对于 Encoder仍然采用基于特征贡献的聚合方式对于 Classifier则采用一种 **channel-wise supplementation** 的方式- 原有源域类别对应的分类器通道保留源域聚合结果- 新增目标类别对应的分类器通道保留目标客户端训练得到的参数。这相当于在分类器层面做“类别通道拼接”旧类别依然由源域经验负责新类别则由目标客户端提供新参数。这种设计比直接混合所有分类器参数更加稳妥因为类别增量场景下不同分类器输出通道本身就对应不同类别通道级补充更符合模型结构。### 4.4 抗遗忘机制贡献驱动聚合会提升目标域适应速度但也可能带来一个副作用模型过度偏向目标域导致源域性能下降。为此Gains 设计了 **Anti-forgetting Mechanism, AFM**。AFM 的核心做法是在源客户端本地训练时引入一个约束项控制当前模型不要过度偏离新客户端加入前的历史模型。也就是说源客户端在学习新全局模型的同时会保留对原始源域知识的记忆。这使 Gains 能够在两个目标之间取得平衡- 对目标域快速适应- 对源域性能尽量不遗忘。## 5. 实验设计论文在两个多域数据集上验证 Gains| 数据集 | 任务 | 子域 || --- | --- | --- || DigitFive | 数字分类 | MNIST、MNIST-M、SVHN、USPS、SynthDigits || Amazon Review | 文本情感分类 | Books、DVDs、Electronics、Kitchen |实验包含三种数据偏移场景| 场景 | 描述 || --- | --- || Mild shift | 源域和目标域来自同一子数据集但类别不同 || Medium shift | 源域来自一个子数据集目标域来自另一个子数据集 || Strong shift | 不同源客户端来自不同子域目标客户端来自其他子域 |评价指标包括- T-Acc目标客户端准确率- S-Acc源客户端平均准确率- G-Acc全局准确率。对比方法包括 FDA 方法和异构联邦学习方法- FOSDA- SemiFDA- AutoFedGP- FedHEAL- FedAvg- FedProx- FedProto## 6. 主要实验结果论文中的主实验显示Gains 在目标域、源域和全局准确率上都取得了较好表现。以 DigitFive 为例| 场景 | T-Acc | S-Acc | G-Acc || --- | ---: | ---: | ---: || Mild shift | 99.34 | 93.21 | 94.44 || Medium shift | 97.91 | 90.09 | 91.65 || Strong shift | 98.98 | 93.18 | 94.34 |在 Amazon Review 上| 场景 | T-Acc | S-Acc | G-Acc || --- | ---: | ---: | ---: || Medium shift | 84.60 | 82.81 | 83.09 || Strong shift | 80.54 | 84.95 | 83.85 |从结果可以看到Gains 的优势不是单点性能而是同时兼顾了目标域和源域。很多基线方法会出现明显失衡。例如某些方法在目标域上表现不错但源域准确率下降明显另一些方法保持了源域性能却难以适应目标域。Gains 通过贡献驱动聚合和 AFM在两者之间取得了更好的平衡。## 7. 适应速度分析论文还比较了不同方法的收敛速度。在 DigitFive 的 mild shift 场景中Gains 只需要较少轮次就能收敛。| 方法 | 收敛轮次 | 时间 || --- | ---: | ---: || Gains | 5 | 807.45 || FedHEAL | 40 | 1368.40 || FedAvg | 20 | 1977.20 || FedProx | 40 | 6880.80 || FedProto | 32 | 9519.68 |这个结果说明贡献驱动聚合不仅提升最终精度也能加快新知识整合速度。对于开放联邦学习环境来说这一点很关键因为新客户端可能持续加入系统不能每次都花大量轮次重新适应。## 8. 消融实验AFM 是否真的有用论文对抗遗忘机制进行了消融实验。结果显示如果去掉 AFM源域性能会明显下降。| 设置 | Mild | Medium | Strong || --- | ---: | ---: | ---: || Gains with AFM | 99.05 | 90.09 | 94.77 || w/o AFM | 9.24 | 84.35 | 92.46 |其中 mild shift 场景下降最明显。这与论文前面的观察一致类别增量会导致分类器参数变化更剧烈如果没有抗遗忘约束模型更容易偏离原有源域知识。## 9. 论文贡献总结我认为这篇论文的主要贡献可以总结为三点。第一提出了开放环境下 FDA 的细粒度处理流程。相比只判断是否存在新知识Gains 进一步区分类别增量和域增量使后续适应策略更有针对性。第二利用模型组件差异进行知识识别。论文发现 Encoder 特征对域变化敏感Classifier 参数对类别变化敏感并将这一经验观察转化为可执行的知识发现规则。第三设计了兼顾适应速度和源域保持的聚合机制。贡献驱动聚合负责快速吸收新知识AFM 负责避免源域遗忘两者共同服务于“快速且平衡”的目标。