侧链条件化和建模用于全原子蛋白质序列设计 - FAMPNN

1. 背景介绍

蛋白质是生命活动的重要承担者,其三维结构决定了其生物学功能。蛋白质序列设计的目标是为给定的蛋白质骨架结构设计出能够稳定折叠并具有特定功能的氨基酸序列。传统的蛋白质序列设计方法,如基于物理的方法,通常依赖于能量函数来优化序列和侧链构象,以找到能量最低的配置。近年来,深度学习方法在蛋白质序列设计领域取得了显著的成功,尤其是基于固定骨架的序列设计。

关键术语解释:

2. 核心概述

本文提出了 FAMPNN (Full-Atom MPNN),一种用于蛋白质序列设计的新方法,该方法显式地建模了每个残基的序列身份和侧链构象。FAMPNN 模型学习残基离散的氨基酸身份和连续的侧链构象的联合分布,并使用结合了分类交叉熵损失和扩散损失的目标函数进行训练。论文证明了联合学习这两个分布是高度协同的任务,能够提高序列恢复率并实现最先进的侧链堆积性能。此外,显式全原子建模的优势可以推广到序列恢复之外的实际蛋白质设计应用,例如零样本预测实验结合亲和力和稳定性测量。该方法通过图神经网络 (GNN) 编码骨架结构,并迭代地生成序列和侧链,最终实现全原子蛋白质序列设计。

3. 方法论和实验细节

3.1. 数据集

论文中使用了以下数据集进行模型训练和评估:

3.2. 算法和模型

FAMPNN 模型的核心架构是混合了 MPNN (Message Passing Neural Network) 和 GVP (Geometric Vector Perceptron) 的图神经网络。模型主要由以下三个组件构成:

  1. 不变骨架编码器 (Invariant Backbone Encoder): 与 ProteinMPNN 的编码器相同,用于编码蛋白质的骨架结构。输入是蛋白质的骨架原子坐标,输出是节点的表示和边的表示。
  2. 不变全原子编码器 (Invariant Full-Atom Encoder): 替换了 ProteinMPNN 的序列解码器,与骨架编码器结构相同,但扩展了特征表示,能够处理所有原子。输入除了骨架结构外,还包括序列信息。
  3. 等变全原子编码器 (Equivariant Full-Atom Encoder): 使用几何向量感知器 (GVP) 层,学习向量特征和标量特征。GVP 层包含等变轨道 (equivariant track) 和不变轨道 (invariant track)。等变轨道用于学习向量特征,不变轨道用于学习标量特征。FAMPNN 使用等变轨道编码 Cα 到残基 i 中所有其他原子的单位向量,以及 Cαi 到残基 j 中所有原子的单位向量作为边特征。不变轨道则结合了全原子编码器中的距离信息。

训练损失函数:

FAMPNN 的训练目标是联合预测序列身份和侧链构象。因此,总损失函数由两部分组成:

总损失函数为两者的简单加和:

L<sub>total</sub> = L<sub>MLM</sub> + L<sub>diff</sub>

侧链扩散过程:

FAMPNN 使用扩散模型生成侧链坐标。扩散过程基于 EDM (Equilibrium Diffusion Model) 框架,并使用了方差爆炸 (variance-exploding) 策略。

采样过程:

采样过程是一个迭代的去噪过程。从完全噪声的侧链坐标开始,逐步使用训练好的去噪器 Dθ 进行去噪,最终得到生成的侧链坐标。FAMPNN 使用迭代掩码采样方法,在每个步骤中,模型并行预测所有残基的 token (序列和侧链),然后解屏蔽一部分 token,重复此过程直到所有 token 都被解屏蔽。

3.3. 训练和评估过程

4. 研究过程和结论

论文的核心研究过程围绕着验证全原子建模和侧链条件化对于蛋白质序列设计和适应性预测的有效性展开。

研究过程:

  1. 模型构建: 设计并实现了 FAMPNN 模型,该模型显式地建模了氨基酸序列和侧链构象,并采用联合训练策略。
  2. 序列恢复和自洽性评估: 在 CATH 4.2 数据集和 de novo 骨架上评估 FAMPNN 的序列恢复率和自洽性。实验结果表明,FAMPNN 在序列恢复方面具有竞争力,在自洽性方面与 ProteinMPNN 相当。
  3. 侧链堆积评估: 在 CASP 数据集上评估 FAMPNN 的侧链堆积性能。结果表明,FAMPNN 在侧链堆积方面取得了最先进的性能,尤其是在 RMSD 指标上优于其他方法。
  4. 蛋白质适应性预测评估: 在多个蛋白质适应性数据集上评估 FAMPNN 的预测能力。结果表明,FAMPNN 在蛋白质稳定性预测和蛋白质-蛋白质结合亲和力预测方面优于其他无监督模型,甚至在某些情况下优于有监督模型。
  5. 消融实验: 通过消融实验研究了全原子条件化和侧链堆积目标对模型性能的影响。结果表明,全原子条件化和侧链堆积目标都能够提高序列设计性能,并且全原子条件化在蛋白质适应性预测方面尤为重要。

结论:

论文的主要结论是:

5. 总结和客观评价

FAMPNN 是一种新颖的全原子蛋白质序列设计方法,它通过显式地建模侧链构象,并在训练过程中结合序列预测和侧链扩散,实现了优异的性能。论文的实验结果充分证明了全原子建模和侧链条件化对于蛋白质序列设计的重要性。FAMPNN 在序列恢复、侧链堆积和蛋白质适应性预测方面都取得了具有竞争力的结果,表明该方法具有广阔的应用前景。

客观评价:

总的来说,FAMPNN 是一项重要的研究工作,它为蛋白质序列设计领域提供了一种新的思路和方法,并为未来的研究方向提供了有益的启示。

6. 参考文献和链接

参考文献列表 (部分):

注意: 由于 bioRxiv 是预印本平台,该论文尚未经过同行评审,请读者注意甄别。