香港大学等九所顶尖高校联手攻克脑机接口难题:无需重新训练
这项由香港大学主导联合深圳回路地区研究院、香港中文大学、上海人工智能实验室、哈佛大学、哥伦比亚大学、华盛顿大学及卡内基梅隆大学的跨国研究团队完成的成果以预印本形式发布于2026年4月论文编号为arXiv:2604.08537有兴趣深入了解的读者可通过该编号查询完整论文。每个人的大脑都像一把独一无二的锁。神经科学家们长期以来有一个宏大的梦想如果能够读懂人类的大脑我们或许可以帮助失去语言能力的患者重新与世界沟通甚至有朝一日为瘫痪者恢复行动自由。然而横亘在这个梦想面前的是一道看似无法逾越的鸿沟——每个人大脑的工作方式都截然不同今天训练好的模型只能读懂这个人的大脑换一个人就得重头来过。这就好比你费尽心思配好了一把钥匙却发现它只能开一扇门世界上其他所有的锁它都无能为力。这支来自九所顶尖机构的研究团队交出了一份令人振奋的答案。他们开发的系统名叫BrainCoDecBrain In-Context Decoding大脑情境解码器核心能力是只需给它看一小批来自新人物的大脑-图像对照样本它就能在完全不重新训练的情况下读懂这个从未见过的陌生人的大脑信号从中还原出他正在看的图像是什么。这是一把能够自动适配陌生锁孔的万能钥匙。一、人人大脑各不相同这件事为什么让科学家头疼了这么多年要理解这项研究的价值得先弄清楚大脑成像研究者面对的是什么样的困境。当一个人看到一张猫咪的照片时他大脑中的神经细胞会产生一系列电信号活动科学家可以用一种叫做功能性磁共振成像fMRI的技术把这些活动记录下来得到的结果是一张由无数个小方块称为体素voxel可以理解为大脑活动地图上的一个个像素点组成的三维图。问题在于同样是看一张猫咪照片张三大脑里活跃的区域和李四大脑里活跃的区域可能相差甚远。这种差异来自每个人独特的成长经历、大脑结构的细微差别以及神经系统在漫长岁月中形成的个性化接线方式。正因如此研究者们长期以来只能为每一个实验参与者单独训练一个专属的解码模型就像为每个人量身定制一把钥匙。这个过程不仅耗时费力需要大量的数据采集还让大脑解码技术始终停留在只对少数特定人有效的阶段无法走向更广泛的应用。要实现真正意义上的跨人群脑机接口研究者们必须回答一个根本性的问题有没有一种方法能让计算机自动学会适应新面孔的大脑二、解锁陌生大脑的核心思路先建档案再破解密码BrainCoDec的工作流程可以用一个侦探档案室的比喻来理解。侦探破案的关键从来不是死记硬背每一个嫌疑人的长相而是掌握一套方法论通过观察一个人留下的几个关键线索迅速推断出这个人行为的整体规律。BrainCoDec正是这样运作的。当研究者遇到一个新的实验对象时他们首先会给这个人看一小批图片同时记录下他大脑的反应得到若干图片-大脑活动的对照组合。BrainCoDec拿到这些组合之后分两个阶段完成它的工作。第一个阶段可以理解为建立个人档案。系统会针对这个人大脑中的每一个体素单独分析这个小方块在看到不同图片时表现出怎样的规律它对什么类型的视觉信息最敏感通过这种分析系统为每一个体素建立一个数学描述相当于为这个人大脑的每一个角落制作了一份性格档案。负责完成这项工作的是一个经过特殊训练的神经网络它的前身是哥伦比亚大学和卡内基梅隆大学等机构此前开发的BrainCoRL模型专门用来预测大脑某个区域对给定图像的反应强度。第二个阶段则是根据档案破解密码。当这个人看到一张新图片时系统得到了他大脑各区域的实时活动数据。系统把第一阶段建立的档案和这次的实时活动数据拼合在一起交给另一个专门训练的神经网络进行综合分析最终输出对这张新图片内容的推断——具体来说是推断出这张图片在一个标准视觉语义空间由CLIP、DINO或SigLIP等预训练视觉模型提供中对应的坐标有了这个坐标就能在一个图片库中找到最接近的候选图片。这套两阶段的设计让BrainCoDec既能捕捉个体间的差异第一阶段又能发挥跨个体学习到的通用规律第二阶段二者缺一不可。三、让机器学会举一反三元学习的秘密BrainCoDec最核心的技术秘密藏在它的训练方式里。这里需要介绍一个叫做元学习的概念它的目标不是让机器学会解决某一道特定的题目而是让机器学会如何快速学会解题。一个好的例子是考试前的复习策略。死记硬背某套题目答案的学生换一套题就会手足无措而真正掌握解题方法的学生哪怕面对从未见过的题目也能游刃有余地应对。BrainCoDec的训练目标就是后者它通过大量不同实验参与者的大脑数据进行训练学习的不是如何读懂张三的大脑而是如何从几个样本快速推断出任何人大脑的工作规律。这种能力在技术上被称为情境学习in-context learning。借用最近大语言模型领域的一个现象来理解ChatGPT这类大型语言模型在对话过程中只需要看到几个例子就能推断出用户想要什么样的回答风格并且在不修改自身参数的情况下完成调整。BrainCoDec把同样的原理应用到了大脑解码领域实现了在不更新任何模型权重的前提下快速适应新面孔大脑的能力。为了让系统在训练阶段就养成这种灵活适应的习惯研究团队设计了一套分三步走的训练流程。第一步是纸上练兵用计算机合成的虚拟大脑数据进行预训练让模型建立对大脑编码规律的基本认知这一步完全不需要真实的脑成像数据。第二步是拓展眼界在训练过程中随机改变每次输入的体素数量从200到4000个不等让模型学会灵活处理不同规模的输入不管新用户的大脑数据多少都能从容应对。第三步是实战磨砺用真实的fMRI数据进行精调让模型的感知贴近真实神经信号的统计特征。经过这三步的锻炼BrainCoDec就具备了在没有任何额外训练的情况下直接迁移到新用户身上的能力。四、在两个大型数据集上接受考验研究团队在两个规模不同、采集条件也大相径庭的数据集上对BrainCoDec进行了严格测试。主要测试场地是自然场景数据集NSD这是目前世界上最大的7特斯拉高精度fMRI视觉数据集每位参与者在扫描仪中看了约一万张不同的图片。研究团队选取了其中四位完成了全部扫描任务的参与者编号S1、S2、S5、S7作为主要评估对象采用的方式是留一法每次训练时将其中三位参与者的数据用于训练剩下一位的数据完全保留作为测试确保被测者在模型训练阶段从未被见过。与此同时另外四位只完成了部分扫描的参与者S3、S4、S6、S8也被纳入了补充测试同样是对这些人完全陌生的情况下进行解码。第二个测试场地是BOLD5000数据集这个数据集用的是3特斯拉精度低于NSD的普通临床级磁共振扫描仪采集了完全不同的受试者看约五千张图片的大脑反应。重要的是BrainCoDec在这里使用的是完全在NSD上训练好的模型没有任何针对BOLD5000的再训练这意味着它需要跨越扫描仪型号、磁场强度、扫描参数和被试人群的多重差异。测试的核心指标是图片检索准确率给定一个人看某张图片后的大脑信号系统能否从一个包含数百到一千张候选图片的库中找到这张被看到的图片每次只提供200张建档用的参照图片相当于研究者只有机会观察这个陌生人大脑对200张图片的反应就要开始对新图片进行解码。五、数字背后的故事BrainCoDec究竟表现如何对比实验的结果用差距悬殊来形容并不为过。在NSD四位完整参与者的测试中BrainCoDec在Top-1准确率即系统的第一个猜测就命中正确图片的概率上四位参与者的平均成绩达到22.7%。作为对比目前业界公认的最强跨被试解码方法MindEye2它实际上需要把所有用户的大脑数据对齐到一个标准解剖模板有一定的解剖对齐要求在同样的任务上平均只有3.90%另一个参照方法TGBD的平均成绩则仅有0.82%。如果把目标放宽到Top-5准确率系统给出的前五个猜测中有一个命中BrainCoDec的平均成绩是54.0%而MindEye2只有9.81%。换一个更直观的角度来理解这个数字在907张候选图片中随机猜一张的概率大约是0.11%MindEye2的成绩相当于比随机猜测好了大约三十五倍而BrainCoDec的成绩则相当于比随机猜测好了约两百倍。对于另外四位没有完成全部扫描的参与者S3、S4、S6、S8BrainCoDec的Top-1准确率在14.4%到20.1%之间同样大幅领先于其他方法。在完全不同的BOLD5000数据集上BrainCoDec仅凭20张建档图片在20张测试图片的五折交叉验证中使用CLIP特征的Top-1准确率达到31.45%随机猜测概率为5%Top-5准确率高达81.67%平均排名仅为3.49意味着系统的猜测平均排在前几位之内。六、越多信息越准确两个维度上的喂饱效应BrainCoDec有一个非常直观的特性给它的信息越多它的表现就越好。而且这种提升在两个完全独立的维度上都有体现。第一个维度是建档图片数量也就是在正式解码新图片之前研究者给这个新用户看了多少张用于建立档案的图片。实验显示随着建档图片从50张增加到600张四位NSD参与者的Top-1准确率都呈现出稳步上升的趋势。尤其是在图片数量较少时增加每一张图片带来的提升都相当显著。值得欣慰的是在仅有200张建档图片的情况下BrainCoDec已经能够达到相当不错的解码水平这意味着即便实验时间有限、数据有限这套系统也能正常工作。第二个维度是参与解码的体素数量也就是在第二阶段的综合分析中系统能看到多少个来自这个人大脑的信号点。随着体素数量从接近零增加到两万个解码准确率同样持续上升。在CLIP、DINO和SigLIP三种不同视觉特征空间下这个趋势在所有测试参与者身上都表现一致。更有意思的是当体素数量达到约4000个时性能已经接近使用全部体素的水平说明系统能够从相对有限的信号中提取出足够充分的信息。这种双维度的喂饱效应为实际应用提供了重要的灵活性研究者可以根据实际条件在数据采集时间和解码精度之间做出合理权衡。七、消融实验一砖一瓦的重要性为了验证BrainCoDec的每个设计决策是否真的必要研究团队做了一系列拆零件测试依次去掉某个组成部分观察性能的变化。纯合成数据预训练版本不使用任何真实fMRI数据的余弦相似度衡量预测与真实图像特征的接近程度大约在0.19到0.23之间梯度下降直接求逆版本用传统数学优化方法强行反推图像的余弦相似度约在0.30到0.32之间而使用真实数据训练、并进行了被试隔离的正式BrainCoDec版本的余弦相似度则高达0.79到0.81提升幅度极为显著。更有意思的是允许模型在训练时见过这位被试数据的无隔离版本BrainCoDec no HO其余弦相似度为0.80到0.82与正式版本几乎没有差距。这个结论在技术上具有深刻含义即便模型在训练时从未接触过某个特定被试它的解码性能也几乎与见过这位被试的版本相当证明了元学习策略的有效性也证明了这套系统在真实世界部署中的可靠性。八、拆掉特定脑区系统还能正常运转吗大脑皮层有许多功能专一化的区域比如负责识别面孔的梭状回FFA负责识别场所和建筑的海马旁回PPA、枕叶场所区OPA和压后皮层RSC负责识别文字的视觉词形区以及负责识别身体部位的体外纹状区EBA。一个合理的猜测是如果系统在解码面孔图片时主要依赖的是FFA区域的信号那么一旦把这个区域的数据屏蔽掉解码能力应该会显著下滑。研究团队专门设计了一组实验来检验这个猜测。他们先用独立的功能定位实验确认了每位参与者大脑中食物、面孔、场所、文字各类别的专属敏感区域然后找出测试图片中最能激活这些区域的图片接着把对应的功能区体素从解码过程中完全屏蔽再观察解码性能的变化。结果颇为出乎意料。对于面孔、食物和文字类别的图片即便把专门负责这些类别的功能区屏蔽掉解码性能的下降幅度在大多数被试和条件下都非常有限甚至有些情况下几乎没有明显变化。这说明BrainCoDec并不依赖于某个单一的特权脑区来完成解码而是学会了从分布在整个高级视觉皮层的大量信号中提取信息具备很强的冗余容错能力。场景类别是一个例外屏蔽掉PPA、OPA和RSC这三个场所选择性区域对场所类图片的解码性能造成了统计上显著的下降。这个结果也符合神经科学对这些区域功能的认知——它们在场所感知中扮演的角色确实更为核心和不可替代。九、注意力地图系统目光落在哪里BrainCoDec内部的变换器transformer网络在处理来自不同体素的信号时会对每个体素分配不同的关注度这种关注度分布可以通过提取注意力权重attention weights来可视化。研究团队把这些注意力权重投影到大脑皮层的平面展开图上得到了一组令人印象深刻的对比图。当系统在解码面孔类图片时它的注意力明显集中在梭状回面孔区FFA和体外纹状区EBA等已知的面孔和身体识别区域当系统在解码场所类图片时注意力则转移到了PPA、OPA和RSC等场所识别区域。这种分布与神经科学通过几十年独立研究建立起来的功能定位图谱高度吻合。研究团队还进一步用UMAP一种数学降维工具可以把高维数据的结构压缩到可视化的二维或三维空间把整个测试集的体素注意力权重投射到一个三维空间中发现不同功能属性的体素在这个空间中形成了清晰分离的聚类面孔和身体选择性区域EBA、FFA等聚集在一起形成绿色群落场所选择性区域RSC、OPA、PPA等聚集在另一处形成红色群落。这种自发涌现的语义聚类结构并没有被显式地编码进训练目标中而是系统在学习解码任务的过程中自然发展出来的为理解高级视觉皮层的组织方式提供了新的计算视角。十、从实验室走向真实世界的一步BrainCoDec的技术路线和实验结果指向了一个更宏观的目标建立一套能够服务于整个人类群体的通用大脑解码基础模型。在这个目标的背景下有几个具体的应用方向值得关注。在脑机接口领域目前因为肌萎缩侧索硬化渐冻症、脊髓损伤等疾病而失去运动或语言能力的患者如果要使用基于大脑信号的辅助沟通设备往往需要花费大量时间对设备进行个性化校准。BrainCoDec这类不需要重新训练的跨被试方法可能大幅缩短这个过程让更多患者能够更快地受益于技术的进步。在认知科学研究领域大脑的个体差异本身是重要的研究对象。BrainCoDec提供了一种工具能够在不对每个被试单独建模的情况下对大规模人群进行神经表征的比较研究这对于建立人口级别的大脑功能理论具有重要意义。研究团队也明确指出相同的框架原则上可以扩展到EEG脑电图、MEG脑磁图等其他大脑信号记录技术为这些成本更低、使用更方便的技术赋予更强的泛化能力。说到底BrainCoDec并没有宣称已经破解了大脑的全部秘密。它解码的是图像在高维视觉语义空间中的坐标而不是直接生成逼真的重建图像——不过论文也指出这个坐标可以进一步通过Stable Diffusion等图像生成模型转化为具体图像只是这部分功能不是本文的研究重点。更重要的是这项研究证明了一件此前被普遍认为极其困难的事机器完全可以通过少量样本无需重新训练就学会适应一个全新的大脑。这把万能钥匙已经在实验室里成功开锁。归根结底大脑解码这件事比想象中既更困难也更有希望。困难在于每个人的神经地图都是独一无二的希望则在于人类大脑尽管千差万别却分享着同一套视觉认知的底层逻辑——而BrainCoDec恰恰学会了如何利用这套共同逻辑灵活打开每一扇不同的门。对于这项研究结果感到好奇的读者可以通过论文编号arXiv:2604.08537获取完整的技术细节代码和模型也已在GitHub上公开发布。QAQ1BrainCoDec解码的是什么它能直接还原人眼看到的图像吗ABrainCoDec解码的是图像在一个标准视觉语义空间中的坐标简单说就是推断图像的内容特征然后在一个候选图片库中找到最接近的图片。它的核心评估任务是图片检索而非直接生成像素级别的重建图像。不过这个解码结果可以进一步接入Stable Diffusion等图像生成模型生成视觉上更逼真的重建图像只是这部分不是论文的主要研究内容。Q2BrainCoDec需要多少张图片才能开始解码陌生人的大脑A实验表明仅凭200张建档图片即给新用户看200张图片并记录他的大脑反应BrainCoDec就能实现相当不错的解码性能在NSD数据集上Top-1准确率平均达到22.7%远超其他方法。图片数量越多性能越好但在资源有限的情况下200张已经足够实用。Q3BrainCoDec换了不同的核磁共振扫描仪还能用吗A可以。研究团队在完全不同的BOLD5000数据集上进行了测试该数据集使用3特斯拉扫描仪NSD使用7特斯拉采集参数、图片集和被试人群都与训练数据截然不同BrainCoDec没有任何针对性再训练仅凭20张建档图片就实现了CLIP特征Top-1准确率31.45%、Top-5准确率81.67%的成绩证明了其跨扫描仪的泛化能力。