1. 从序列到功能蛋白质结构预测的世纪难题蛋白质是生命活动的核心执行者从催化生化反应的酶到构成细胞骨架的结构蛋白其功能千差万别。然而决定蛋白质功能的并非其氨基酸序列本身而是这条“一维字符串”在三维空间中折叠成的精密而复杂的立体结构。这个由序列决定结构再由结构决定功能的“中心法则”延伸是生物学的基石。因此准确预测蛋白质的三维结构即“蛋白质折叠问题”被誉为生物学领域的“圣杯”之一。在AlphaFold横空出世之前这个问题困扰了科学家超过半个世纪。想象一下一个中等大小的蛋白质由数百个氨基酸组成每个氨基酸主链和侧链上的原子都有多个可旋转的化学键。理论上其可能的构象数量是一个天文数字这就是著名的“列文塔尔悖论”蛋白质如何在如此浩瀚的构象空间中在毫秒到秒的时间尺度内快速、精准地折叠到唯一稳定的天然态传统计算方法如分子动力学模拟虽然基于物理原理但受限于计算能力只能模拟极短时间尺度的折叠过程对于大多数蛋白质来说完全不现实。因此早期的计算预测方法大多转向“统计学习”或“模板建模”路线。它们依赖于一个关键观察进化上相关的蛋白质往往具有相似的结构。通过多序列比对从海量同源序列中挖掘出共进化信号可以推断出哪些氨基酸对在空间上是接近的。基于这些距离约束再通过物理力场或知识力场进行优化就能拼凑出一个大概的结构。这类方法包括早期的RaptorX-Contact、trRosetta以及初代AlphaFold都属于“两阶段预测”范式。第一阶段用一个神经网络预测成对残基间的距离和方向如二面角第二阶段将这些预测作为约束条件通过一个可微分的能量函数进行三维结构的优化重建。这个阶段的优化器本身通常不是神经网络而是一个传统的数值优化过程。注意两阶段方法的核心瓶颈在于“误差传递”。第一阶段神经网络预测的距离图但凡有偏差在第二阶段优化时就会被放大导致最终结构失真。此外优化过程本身计算成本高昂且容易陷入局部最优解。转折点出现在几何深度学习和等变神经网络的成熟。其核心思想是既然蛋白质结构在三维空间中的旋转和平移不会改变其生物学本质即具有SE(3)对称性那么用于预测它的神经网络就应该内置这种对称性。这就是SE(3)-等变性网络的价值——无论你将输入的结构如何旋转平移网络内部的特征变换和最终输出都会以一致的方式随之变化。这不仅仅是提升模型泛化能力的技巧更是将关键的物理先验知识直接编码进模型架构极大地缩小了搜索空间让模型能更专注于学习折叠的内在规律。AlphaFold2的成功正是将这种思想发挥到极致的体现。它不再是“先预测距离再优化结构”的流水线而是构建了一个真正的端到端系统输入序列和同源信息直接输出原子的三维坐标。其核心是一个名为Evoformer的模块用于处理序列和进化信息和一个SE(3)-等变的结构模块。这个结构模块以迭代精修的方式直接从抽象特征生成并优化三维坐标。在2020年的CASP14竞赛中AlphaFold2的平均全局距离测试分数首次达到了与实验方法如X射线晶体学相媲美的水平标志着计算结构生物学进入了一个新时代。2. 技术演进的核心从两阶段预测到端到端生成2.1 两阶段预测的遗产与局限在AlphaFold2之前主流方法可以清晰地归类为两阶段预测。让我们深入拆解一下这个流程理解其设计逻辑与固有缺陷。第一阶段共进化信号提取与几何约束预测这个阶段的目标是从氨基酸序列出发生成一组用于三维重建的几何约束。最关键的信息来源是多序列比对。MSA的本质是寻找目标蛋白在进化树上的“亲戚”。如果两个氨基酸在亿万年的进化中始终共同出现或协同变化那么它们在三维空间中很可能彼此靠近以维持蛋白质的结构或功能。神经网络通常是卷积神经网络CNN被训练来从MSA谱中解读这种共进化信号并输出一个N x N的距离矩阵和方向矩阵其中N是序列长度。距离矩阵预测每对残基间的Cα-Cα距离通常离散化为距离桶方向矩阵则预测连接它们的虚拟键的朝向。实操心得MSA的质量直接决定了预测的天花板。深度、多样性高的MSA能提供强信号但对于某些孤儿蛋白进化上独特的蛋白MSA很浅预测效果就会大打折扣。早期工具如HHblits、JackHMMER用于构建MSA这个过程本身就需要巨大的计算资源和时间是当时预测流程的主要瓶颈。第二阶段基于约束的三维结构重建拿到预测的距离和方向约束后问题就转化为一个优化问题在三维空间中找出一组点的坐标使得它们之间的距离尽可能符合预测的距离矩阵同时局部几何如键角、二面角也尽可能合理。常用的方法包括距离几何法将距离约束转化为一个损失函数通过梯度下降直接优化坐标。片段组装法从已知结构的蛋白质片段库中挑选符合局部预测结构的片段进行组装和优化。分子动力学/蒙特卡洛模拟在知识力场如Rosetta力场下以预测约束为引导进行采样。这个阶段最大的问题是“非端到端”。预测网络看不到自己输出的约束在三维空间中重建时会产生什么后果无法从最终的结构误差中直接学习。它就像一个设计师画好了二维图纸但由另一个不沟通的工程师去建造图纸的微小误差可能导致建筑的严重变形。2.2 端到端革命的基石SE(3)-等变性端到端预测的核心突破在于让神经网络直接操作和输出三维坐标并在此过程中始终保持正确的几何对称性。这依赖于SE(3)-等变神经网络架构。什么是SE(3)-等变性SE(3)群描述了三维空间中的所有刚体运动包括旋转和平移。一个函数或网络f是SE(3)-等变的如果对输入应用任何旋转R和平移t其输出也会以同样的方式变换f(R·X t) R·f(X) t。对于蛋白质结构预测这意味着无论你将输入的初始“模糊”结构或特征如何放置在空中网络对最终结构的预测都会随之正确旋转平移而不会改变结构的固有形状。如何实现等变性主流方法使用等变图神经网络。蛋白质被建模为图节点是氨基酸残基或原子边表示空间或序列上的邻近关系。节点的特征不仅包含标量信息如氨基酸类型还包含向量甚至高阶张量特征如方向。网络中的消息传递和特征更新操作是专门设计的以确保这些向量/张量特征在变换下能正确协同变化。例如EGNN、SE(3)-Transformer、不变点注意力都是经典的等变层。AlphaFold2的结构模块解析AlphaFold2的结构模块是SE(3)-等变设计的典范。它并不直接预测全局绝对坐标而是预测每个残基相对于前一个残基的刚性变换一个旋转矩阵和一个平移向量。这种“相对坐标系”的表述天生对全局旋转平移不变。模块通过多层IPA层迭代精修输入是来自Evoformer的每个残基的表征包含序列、配对、模板信息。IPA层执行等变自注意力残基之间通过注意力机制交换信息更新各自的“帧”即局部坐标系和侧链构象。每一轮迭代后根据更新后的“帧”通过刚性几何变换计算出所有原子主链N, Cα, C, O和侧链的全局坐标。这种“预测相对运动 - 积分得到绝对坐标 - 计算损失 - 梯度回传”的闭环使得网络能从最终坐标的误差中直接学习实现了真正的端到端训练。2.3 后AlphaFold2时代的效率与泛化攻坚AlphaFold2确立了精度标杆但其计算成本高昂且严重依赖MSA。后续研究围绕效率提升和泛化能力展开。1. RoseTTAFold三轨信息整合由华盛顿大学团队开发的RoseTTAFold提出了一个巧妙的三轨神经网络架构。这三轨并行处理不同维度的信息1D序列轨处理氨基酸序列本身的信息。2D距离轨处理残基对之间的相互作用信息类似距离图。3D坐标轨处理当前迭代的三维结构信息。 三轨之间通过精心设计的“信息路由”进行双向通信例如3D坐标信息可以影响2D距离图的权重2D的接触信息可以指导3D结构的折叠。这种设计让模型能同时从不同抽象层次学习最终也达到了与AlphaFold2相当的精度但因其开源和相对简洁的架构促进了社区的广泛使用和改造。2. ESMFold用语言模型取代MSAMeta AI的ESMFold做出了一个大胆的尝试完全抛弃计算昂贵的MSA步骤。它基于一个在数亿条蛋白质序列上预训练的超大规模语言模型ESM-2。这个语言模型从单条序列中就能提取出深刻的进化与结构语义信息仿佛“阅读”了蛋白质的“进化史”。ESMFold将这个语言模型提取的特征直接输入到一个类似AlphaFold2的结构模块中。其结果是惊人的在保持相当预测精度的同时速度提升了60倍以上。这对于高通量预测或缺乏同源序列的蛋白来说意义重大。3. OpenFold开源复现与工程优化DeepMind开源了AlphaFold2的推理代码但训练代码和细节并未完全公开。OpenFold项目旨在提供一个完全开源、可训练的AlphaFold2复现。它不仅提供了完整的训练代码还进行了内存和计算优化并发布了OpenProteinSet——一个庞大的公共MSA数据库。这极大地降低了学术界和工业界使用和研发先进蛋白质结构预测模型的门槛。4. AlphaFold-Multimer与AlphaFold3迈向复合物与生命分子全景最初的AlphaFold2主要针对单链蛋白。蛋白质在体内常以多链复合物形式工作。AlphaFold-Multimer通过在多链复合物数据上训练显著提升了对蛋白质-蛋白质相互作用界面的预测能力。而最新的AlphaFold3则将能力范围扩展到了几乎所有的生命分子包括蛋白质、DNA、RNA、小分子配体、离子等并能预测它们之间的相互作用和复合结构。这标志着从单一蛋白质结构预测向生物分子系统结构建模的跨越。下表总结了这些关键方法的核心特点与演进关系方法核心创新学习范式关键网络模块对称性处理主要贡献/影响RaptorX-Contact利用深度残差CNN从MSA预测接触图两阶段学习残差CNNSE(3)-不变证明了深度学习预测接触图的有效性AlphaFold1整合MSA与物理约束预测距离与角度两阶段学习残差CNNSE(3)-不变CASP13冠军首次展示深度学习巨大潜力AlphaFold2端到端坐标预测SE(3)-等变结构模块端到端学习Evoformer IPA结构模块SE(3)-等变革命性突破精度达到实验水平确立新范式RoseTTAFold1D、2D、3D三轨信息协同处理端到端学习三轨神经网络SE(3)-等变提供高性能开源替代架构清晰ESMFold用蛋白质语言模型替代MSA端到端学习ESM-2 结构模块SE(3)-等变实现数量级的速度提升拓展至孤儿蛋白预测OpenFold开源、可训练的AlphaFold2复现端到端学习Evoformer 结构模块SE(3)-等变推动开源生态提供完整训练框架与数据AlphaFold-Multimer针对蛋白质多链复合物优化端到端学习改进的Evoformer 结构模块SE(3)-等变显著提升蛋白质-蛋白质相互作用预测精度AlphaFold3统一预测蛋白质、核酸、小分子等端到端学习扩展的扩散架构SE(3)-等变实现跨生命分子的通用结构与相互作用预测3. 从预测到创造扩散模型驱动的蛋白质设计当预测问题被极大解决后一个更激动人心的方向自然浮现我们能否反向操作从头设计具有特定结构或功能的全新蛋白质这就是蛋白质生成模型的任务。近年来基于扩散模型的生成方法在这一领域取得了瞩目进展。3.1 蛋白质生成任务的独特挑战蛋白质生成不同于图像或文本生成它必须遵守严格的物理和生物化学规则复杂的先验分布真实的、可折叠、可稳定存在的蛋白质结构在浩瀚的构象空间中只占据一个极其稀疏、复杂的流形。生成模型必须学会这个分布。严格的SE(3)对称性生成的蛋白质结构分布必须是SE(3)-不变的。即旋转或平移一个生成的蛋白质其概率密度应该不变。这就要求生成过程的每一步扩散与去噪都必须在等变网络中进行。局部与全局约束蛋白质结构具有多层级约束。局部上主链的键长、键角、二面角有明确的取值范围全局上结构需要满足疏水核心、氢键网络、立体位阻等要求。计算效率蛋白质通常由数百个残基组成每个残基有多个原子。直接在全原子级别生成计算量巨大因此许多工作从生成蛋白质骨架Backbone即Cα、N、C、O原子的轨迹开始。3.2 扩散模型在蛋白质生成中的适配扩散模型的核心思想是定义一个前向过程逐步向数据中添加噪声直到数据变成纯高斯噪声然后训练一个神经网络学习反向的去噪过程。对于蛋白质生成关键是如何定义“噪声”和“去噪网络”以适应蛋白质的几何特性。1. 坐标表示与欧氏空间扩散这是最直观的方法直接将每个残基的Cα原子坐标或所有主链原子坐标视为数据点。代表工作有ProtDiff、Chroma、Genie。前向过程在三维欧氏空间中对每个原子的坐标添加高斯噪声x_t √α̅_t * x_0 √(1-α̅_t) * ε其中ε服从标准高斯分布。挑战与解决方案平移不变性通过将蛋白质中心化减去质心来消除整体平移的影响。旋转等变性使用SE(3)-等变网络如EGNN, SE(3)-Transformer作为去噪网络。这样无论噪声数据如何旋转网络预测的噪声或去噪方向都会相应旋转从而保证生成分布的旋转不变性。链式结构先验单纯的各向同性高斯噪声会破坏蛋白质的链式连接性。Chroma引入了相关扩散过程其噪声协方差矩阵编码了链的连续性相邻残基的噪声相关和回转半径约束使得前向过程结束时蛋白质更像一个随机卷曲的聚合物而非一团完全独立的点。2. 内部坐标表示与流形扩散蛋白质的几何本质更适合用内部坐标描述键长、键角、二面角。FoldingDiff采用了这种表示。优势键长、键角变化范围小二面角具有周期性0到360度。这种表示天生对整体旋转平移不变SE(3)-不变简化了网络设计可以使用普通序列模型如Transformer。挑战二面角位于圆环面Torus流形上而非欧氏空间。直接在角度上加高斯噪声在数学上不严谨。FoldingDiff早期工作仍采用了欧氏空间的扩散公式这是一种近似。更严谨的做法需要在流形上定义扩散过程。3. 刚体帧表示与混合空间扩散这是目前最主流和强大的表示方法被RFdiffusion和FrameDiff采用。每个残基用一个刚体帧表示 * 一个平移向量t代表Cα原子的位置在欧氏空间R³。 * 一个旋转矩阵R代表由Cα、N、C原子定义的局部坐标系方向在特殊正交群SO(3)上。 * 可选一个扭转角χ描述肽键平面的旋转在圆环S¹上。扩散过程对平移t在R³上进行标准高斯扩散。对旋转R在SO(3)流形上进行布朗运动扩散。这需要定义流形上的噪声添加方式例如通过随机扰动旋转矩阵或其在李代数上的坐标。对扭转角χ在S¹上进行环形扩散。优势这种表示最贴合蛋白质的物理本质肽键是刚性的旋转发生在单键两侧。SE(3)-等变网络可以很自然地处理这种刚体帧的更新。RFdiffusion更是直接改造了强大的蛋白质结构预测网络RoseTTAFold作为其去噪网络继承了其强大的结构推理能力。3.3 代表性工作流程拆解以RFdiffusion为例RFdiffusion的工作流程清晰地展示了如何将扩散模型与先进的蛋白质结构预测网络结合数据准备与表示从PDB数据库获取蛋白质结构将其转换为刚体帧表示每个残基的Cα坐标和局部坐标系旋转矩阵。前向噪声过程设定一个噪声调度Noise Schedule。在每一步t对蛋白质的帧表示添加噪声。对于平移部分添加高斯噪声对于旋转部分在SO(3)流形上添加扰动。噪声水平随时间增加最终得到一个近似各向同性高斯分布的先验。去噪网络训练网络以带噪声的蛋白质帧x_t和时间步t为输入目标是预测添加到干净数据x_0上的噪声ε或者直接预测去噪后的x_0。RFdiffusion使用了一个基于RoseTTAFold架构的SE(3)-等变网络。关键创新是自条件Self-conditioning机制在每一步去噪迭代中将网络上一轮的输出一个初步去噪的结构作为模板Template输入回网络为下一轮去噪提供更强的引导这类似于AlphaFold2中的“回收”Recycling技术。采样生成从纯噪声先验分布开始利用训练好的去噪网络逐步执行反向扩散过程最终采样得到一个全新的、符合真实蛋白质结构分布的蛋白质骨架。侧链安装与优化生成骨架后使用独立的侧链预测工具如SCWRL4, Rosetta Packer或集成在模型中的侧链预测模块为骨架安装上合理的氨基酸侧链得到全原子模型。实操心得在训练扩散模型时噪声调度Noise Schedule的设计至关重要。对于蛋白质生成初期噪声可以大一些以探索全局拓扑后期噪声应减小以精细调整局部构象。余弦调度Cosine Schedule在实践中表现往往比线性调度更好。此外条件生成如给定部分结构、对称性、功能位点是当前研究的热点通过在去噪网络中注入条件信息通过交叉注意力或特征拼接来实现。4. 评估、挑战与未来方向4.1 如何评估生成的蛋白质评估生成的蛋白质比评估预测的蛋白质更复杂需要从多个维度考量结构合理性物理指标Ramachandran图检查主链二面角φ, ψ是否落在允许区域内。** clash score**计算原子间不合理短距离碰撞的数量。Rosetta能量使用物理力场如Rosetta score3计算结构的能量越低越稳定。结构质量与天然蛋白对比scTM-scoreTM-score的缩放版本用于比较生成结构与天然结构或训练集结构的拓扑相似性对整体折叠更敏感。RMSD计算Cα原子的均方根偏差衡量局部结构差异。新颖性Novelty与训练集的相似度计算生成结构与训练集中所有蛋白质的scTM-score或RMSD确保生成的不是简单的记忆或微小修改。序列相似性将生成结构进行“逆折叠”Inverse Folding得到序列与已知序列库进行比对。可折叠性与稳定性实验或模拟验证分子动力学模拟在模拟中观察结构是否能在一定时间内保持稳定。实验验证终极检验通过基因合成、蛋白质表达、纯化并用X射线晶体学、冷冻电镜或核磁共振验证其结构。4.2 当前面临的核心挑战与常见问题尽管进展迅速该领域仍存在诸多挑战在实际操作中也会遇到典型问题1. 多链与复合物生成的难题大多数生成模型如早期的RFdiffusion专注于单链蛋白质。然而生命体中大多数蛋白质以多亚基复合物形式工作。生成多链复合物面临指数级增长的复杂度界面设计需要精确生成链间相互作用界面包括疏水作用、氢键、盐桥等。对称性约束许多复合物具有环状、二聚体等对称性生成模型需要内置这种高阶对称性先验。数据稀缺高质量的多链复合物结构数据远少于单链数据。排查思路AlphaFold-Multimer和AlphaFold3为复合物预测提供了强大工具。在生成方面可以通过在训练数据中增加复合物结构并在去噪网络中显式编码链标识符和对称性操作来改进。RFdiffusion后续版本已支持对称性条件生成。2. 功能导向设计的鸿沟当前模型擅长生成“像蛋白质”的结构但如何生成具有特定功能如催化某个反应、结合某个靶点的蛋白质仍是巨大挑战。这需要将序列-结构-功能的映射关系编码进生成过程。问题生成的结构可能物化合理但活性位点、底物通道等关键功能区域缺失或形状不正确。解决方案发展条件生成模型。将功能描述如“需要一个具有水解酯键活性的口袋”或配体分子作为条件输入扩散模型。另一种思路是“基于结构的优化”先生成大量结构然后用一个独立的评分函数如对接打分、物理能量函数进行筛选和优化。3. 长序列生成的稳定性现有模型在生成长度超过300个残基的蛋白质时常常出现结构混乱、局部折叠错误等问题。原因长程相互作用建模困难计算图过大导致优化不稳定训练数据中长蛋白相对较少。技巧采用层次化生成策略先生成蛋白质的拓扑结构域Domain再细化局部结构。或者使用自回归或分块扩散的方式逐步生成蛋白质的不同部分。4. 侧链构象的精度许多骨架生成模型不直接处理侧链后续安装的侧链可能不准确影响功能的实现。建议采用联合生成骨架和侧链的模型如Chroma、AlphaFold3。或者在生成骨架后使用像Rosetta这样的专业工具进行长时间的侧链打包Packing和结构最小化Minimization来优化。4.3 未来展望从结构生成到生命系统设计技术的演进方向正朝着更集成、更可控、更实用的方向发展统一的多模态生成模型未来的模型将不再区分蛋白质、DNA、RNA、小分子配体而是能够在一个框架内生成任意生物分子及其复合物。AlphaFold3已展示了这一方向的潜力。下一步是开发能够根据文本描述如“设计一个能中和某病毒刺突蛋白的迷你抗体”直接生成相应分子结构的模型。基于扩散的逆折叠与序列共设计逆折叠给定结构设计序列与结构生成是一体两面。扩散模型可以同时生成序列和结构实现“序列-结构”的协同设计。这能确保生成的序列不仅折叠成目标结构还具有可表达性、高稳定性等特性。融入物理与生物化学约束将更精确的分子力场、溶剂化效应、pH值条件等作为软约束或条件融入生成过程使生成的蛋白质更贴近真实的生理环境。闭环实验验证与主动学习构建“计算设计 - 实验合成与测试 - 数据反馈优化模型”的闭环。利用高通量实验或定向进化数据通过主动学习持续改进生成模型使其设计出的蛋白质具有更高的实验成功率。我个人在实际操作和跟踪前沿进展中的体会是这个领域正处在一个从“预测理解”到“设计创造”的拐点。工具已经变得前所未有的强大和易用如通过ColabFold在线运行AlphaFold2/3。对于研究者而言现在的关键不再是重复造轮子而是如何巧妙地使用这些强大的基础模型将其与特定的科学问题如设计新型酶、治疗性蛋白、生物材料相结合并在其中注入专业的领域知识。同时理解模型的局限性如对无序区域、膜蛋白、非常见修饰的预测不准比盲目相信其输出更为重要。这个领域的魅力在于它要求我们既是精通机器学习架构的工程师又是深刻理解生物物理和生物化学原理的科学家。