论文阅读:ICLR 2026 Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?idueknOG1wXLICLR 2026 | 一次对齐多语言受益 该论文题为《Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment》由Yuyan Bu、Xiaohao Liu、Zhaoxing Ren、Yaodong Yang与Juntao Dai共同完成研究机构涵盖北京人工智能研究院、新加坡国立大学与北京大学人工智能研究院。 当前安全对齐多集中于英语等高资源语言导致模型在英语中表现安全但在斯瓦希里语、乌尔都语等低资源语言中防线极易被突破。现有跨语言方法需对每种目标语言单独配对训练消耗大量标注资源且性能参差不齐。 例子想象联合国会议上各国代表用母语讨论拒绝回答危险请求这一原则。传统方法需要为每种语言单独培训安全专家并逐一对齐成本高昂且标准难以统一。该论文则像为所有代表安装了一套语义罗盘通过约束不同语言在模型内部表示的共线性使无论说英语、中文还是斯瓦希里语所有人对安全边界的概念指向都坍缩到同一方向。如此仅需英语这一锚定语言的安全监督即可通过单次更新同步辐射至全部语言。️ 具体而言该论文提出即插即用的多语言一致性损失MLC通过奇异值分解操纵多语言查询表示的谱结构最大化主导奇异值以迫使各语言表示共享同一语义子空间。该方法无需低资源语言的响应级标注仅利用多语言提示变体即可完成对齐。 实验发现令人振奋。第一低资源语言安全性能实现跨越式提升。以Qwen-2.5-7B为例斯瓦希里语安全率由6.11%提升至92.78%十种语言平均安全率达95.94%语言间方差从12.44骤降至0.07。第二数据效率极为突出仅需约180万token而现有方法需1500万至6400万token成本差距达十倍以上。第三方法可与DPO、SFT、SimPO、ORPO等主流框架无缝集成并对未见语言展现稳健泛化。 一言以蔽之该研究为多语言大模型安全对齐提供了资源高效、可扩展的实用新范式对推动全球范围内公平可靠的AI安全治理具有重要现实意义。