基于自监督机器学习的蛋白质设计方法改进了抽样,但未改进高适应性变体的识别
1. 背景介绍
蛋白质设计是生物学和生物工程领域的一个重要方向,旨在创造具有特定功能和性质的蛋白质分子。传统上,计算蛋白质设计方法依赖于基于物理的能量函数和优化算法,例如 Rosetta 软件。近年来,机器学习(ML)方法,特别是深度学习模型,在蛋白质结构预测、分子对接和序列设计方面取得了显著进展,并在实验中超越了传统的基于生物物理的方法。
- 蛋白质设计(Protein Design): 利用计算方法创建具有特定功能或性质的蛋白质序列的过程。
- Rosetta: 一款广泛使用的分子建模和蛋白质设计软件套件,它利用基于物理的能量函数和优化算法来预测和设计蛋白质结构。
- 机器学习(Machine Learning, ML): 一种人工智能方法,允许计算机从数据中学习而无需明确编程。
- 深度学习(Deep Learning): 机器学习的一个子领域,使用具有多层的神经网络来分析数据。
- 生物物理方法(Biophysical methods): 基于物理学原理和分子力学的方法,用于模拟和预测生物分子的行为。
2. 核心概述
本文研究了自监督机器学习方法在蛋白质设计中的应用,特别是针对蛋白质序列的抽样和评分问题。作者建立了一个在 Rosetta 软件框架内的工具箱,用于预测氨基酸概率,并允许对不同模型进行并排比较。通过使用现有的蛋白质适应性图景(fitness landscapes)作为基准,作者评估了新的 ML 方法在实际蛋白质设计场景中的性能。研究发现,ML 方法在去除有害突变方面表现更好,但在没有模型微调的情况下,对突变进行评分并没有明显优于 Rosetta。结论是,ML 现在是对生物物理方法的补充,而不是替代。
3. 方法论和实验细节
3.1 数据集
研究使用了四个现有的蛋白质适应性图景数据集来评估不同的蛋白质设计方法。
- GB1 (Immunoglobulin-binding protein G domain B1): 包含约150,000个在四个位点上的突变数据。Wu et al.(2016) 收集。
- avGFP ( Aequorea victoria green fluorescent protein):包含51,715个序列数据,覆盖了81个残基位点。Sarkisyan et al.(2016)收集。
- Trastuzumab (Herceptin):包含38,839个曲妥珠单抗(赫赛汀)的CDR3变异体(10个位置)。Makowski et al.(2022)收集。
- Emibetuzumab: 包含10,000个序列数据,涵盖8个改造位点。Makowski et al.(2022)收集。
这些数据集涵盖了不同的蛋白质属性,并且每个序列包含多个突变。对于每种蛋白质,训练集和测试集的划分比例为 90% 和 10%。
3.2 算法和模型
- FastDesign: 作为基线方法,使用 Rosetta 的 FastDesign 移动器进行设计,Monomer-Relax 设置用于 avGFP,InterfaceRelax 设置用于 GB1、曲妥珠单抗和 Emibetuzumab。
- ESM (Evolutionary Scale Modeling):一种基于 Transformer 的蛋白质语言模型,用于预测蛋白质序列中每个位置的氨基酸概率。
- MIF-ST (Masked Inverse Folding with Sequence Transfer): 一种掩蔽逆折叠模型,它集成了序列转移,用于蛋白质表示学习。
- ProteinMPNN (Protein Masked Protein sequence Number):一种深度学习模型,使用消息传递神经网络来预测蛋白质序列。
- Oracle模型:使用岭回归(Ridge Regression)或者线性判别分析(Linear Discriminant Analysis, LDA)训练的简单预测模型,用于预测不同蛋白质的适应性。对于GB1和avGFP使用岭回归,而曲妥珠单抗和Emibetuzumab使用LDA。训练 Oracle 模型在GB1上斯皮尔曼相关系数为0.79,在avGFP上的斯皮尔曼相关系数为0.79。
3.3 比较方法和实验内容
作者主要从以下几个方面比较了不同的蛋白质设计方法:
- 序列抽样性能: 评估不同方法生成多样化序列的能力,包括生成的独特序列的数量,以及与现有序列的差异。使用三个温度设置 (0.3, 1.0, 和 1.5) 来控制抽样的随机性。评估每个模型的 PerResidueProbabilitiesMetric 。
- 适应性预测性能: 使用 Oracle 模型评估抽样序列的适应性,并比较不同方法的预测准确性。主要关注top 10 预测结果,并以随机选择作为对照。
- 排序性能: 评估不同评分指标(Rosetta 能量、ML 模型置信度等)对抽样序列进行排序的能力,以及与 Oracle 模型预测的适应性之间的相关性。使用斯皮尔曼相关系数。
实验内容包括:
- GB1 突变: 测试在改进 GB1 适应性方面的采样突变。
- avGFP 荧光: 测试在提高 avGFP 荧光方面的采样突变。
- Trastuzumab: 测试在保持 HER2 结合的同时多样化 Trastuzumab 。
- Emibetuzumab: 测试对 Emibetuzumab 双重适应性进行建模的设计方法。
4. 研究过程和结论
4.1 序列抽样
- GB1: 增加氨基酸选择的抽样温度导致了更多多样性(更多的独特序列)。对于ProteinMPNN和三个模型的平均值,温度的升高导致了中值预测适应性的降低。相比之下,对于 ESM 和 MIF-ST,温度的升高并没有显著改变中值预测的适应性。 ProteinMPNN 和 FastRelax 的组合创造了具有预测适应性 > 1.5 的最多个候选,同时也采样了三倍于低预测适应性的序列。
- avGFP: 从平均概率进行采样创造了最多的独特序列,其中 ProteinMPNN 是第二好的。然而,没有一种方法具有大于 7% 的更高适应性候选的比例。
- Trastuzumab: 除了 (IC-)ESM 和 FastDesign 之外,所有方法对于曲妥珠单抗的预测结合概率都低于 0.6。从平均预测值进行采样导致了最高数量的具有 > 0.9 的预测结合概率的独特序列,同时也创造了五倍数量的具有较低预测结合概率的序列。
- Emibetuzumab: 所有方法都强烈倾向于采样预测会结合抗原和多特异性试剂的序列,除了 FastDesign,它只采样了预测具有低抗原结合概率的序列。从平均概率(T = 1.0)进行采样创造了最大数量的预测特异性结合剂,具有 45 个独特序列。
4.2 适应性预测 & 排序性能
斯皮尔曼相关性分析:
以下是不同数据集和评分指标之间的斯皮尔曼相关系数(ρ)摘要,数值来自论文的 Table 1:
- GB1: MIF-ST 伪困惑度 (ρ = -0.60) 和总得分 (ρ = -0.55) 显示出最强的负相关性。
- avGFP: 所有指标的相关性都很弱。Rosetta 总得分 (ρ = -0.33) 表现最佳。
- Trastuzumab: 所有指标的相关性都很弱。AF2 PAE 交互 (ρ = -0.31) 略有优势。
- Emibetuzumab: ProteinMPNN 和 ESM (ρ = -0.29) 的伪困惑度略优于其他指标。
Top 10 候选者分析
- 总的来说,根据预测适应性选择前 10 名候选者并没有稳定地优于随机选择。
- 在某些情况下(GB1 和 Trastuzumab),使用特定指标进行选择可以产生比随机选择更好的平均或最佳候选者。
- 值得注意的是,所有指标在对 Emibetuzumab 预测的特异性结合进行排序时表现都很差。
4.3 总结性结论
作者得出的主要结论是:
- ML 模型擅长于对可行的序列空间进行采样。
- 评分和排序仍然具有挑战性,因为来自 ML 模型的困惑度和 Rosetta 能量的传统生物物理指标与目标蛋白质性质的相关性相对较低。
5. 总结和客观评价
本文对自监督机器学习方法在蛋白质设计中的应用进行了全面的评估。研究结果表明,ML 方法在序列抽样方面具有优势,但评分和排序仍然是一个挑战。未来的研究可以集中在开发更精确的评分函数、结合生物物理信息的 ML 模型以及针对特定任务进行微调的方法。总的来说,本文为蛋白质设计领域的 ML 应用提供了有价值的见解。
6. 参考文献和链接
- 论文链接: https://www.science.org/doi/10.1126/sciadv.adr7338
- 代码仓库: (在找到代码仓库的实际链接后补充)
- 数据集链接: (paper 中已经详细描述了数据集的出处)