基于自监督机器学习的蛋白质设计方法改进了抽样,但未改进高适应性变体的识别

1. 背景介绍

蛋白质设计是生物学和生物工程领域的一个重要方向,旨在创造具有特定功能和性质的蛋白质分子。传统上,计算蛋白质设计方法依赖于基于物理的能量函数和优化算法,例如 Rosetta 软件。近年来,机器学习(ML)方法,特别是深度学习模型,在蛋白质结构预测、分子对接和序列设计方面取得了显著进展,并在实验中超越了传统的基于生物物理的方法。

2. 核心概述

本文研究了自监督机器学习方法在蛋白质设计中的应用,特别是针对蛋白质序列的抽样和评分问题。作者建立了一个在 Rosetta 软件框架内的工具箱,用于预测氨基酸概率,并允许对不同模型进行并排比较。通过使用现有的蛋白质适应性图景(fitness landscapes)作为基准,作者评估了新的 ML 方法在实际蛋白质设计场景中的性能。研究发现,ML 方法在去除有害突变方面表现更好,但在没有模型微调的情况下,对突变进行评分并没有明显优于 Rosetta。结论是,ML 现在是对生物物理方法的补充,而不是替代。

3. 方法论和实验细节

3.1 数据集

研究使用了四个现有的蛋白质适应性图景数据集来评估不同的蛋白质设计方法。

  1. GB1 (Immunoglobulin-binding protein G domain B1): 包含约150,000个在四个位点上的突变数据。Wu et al.(2016) 收集。
  2. avGFP ( Aequorea victoria green fluorescent protein):包含51,715个序列数据,覆盖了81个残基位点。Sarkisyan et al.(2016)收集。
  3. Trastuzumab (Herceptin):包含38,839个曲妥珠单抗(赫赛汀)的CDR3变异体(10个位置)。Makowski et al.(2022)收集。
  4. Emibetuzumab: 包含10,000个序列数据,涵盖8个改造位点。Makowski et al.(2022)收集。

这些数据集涵盖了不同的蛋白质属性,并且每个序列包含多个突变。对于每种蛋白质,训练集和测试集的划分比例为 90% 和 10%。

3.2 算法和模型

3.3 比较方法和实验内容

作者主要从以下几个方面比较了不同的蛋白质设计方法:

  1. 序列抽样性能: 评估不同方法生成多样化序列的能力,包括生成的独特序列的数量,以及与现有序列的差异。使用三个温度设置 (0.3, 1.0, 和 1.5) 来控制抽样的随机性。评估每个模型的 PerResidueProbabilitiesMetric 。
  2. 适应性预测性能: 使用 Oracle 模型评估抽样序列的适应性,并比较不同方法的预测准确性。主要关注top 10 预测结果,并以随机选择作为对照。
  3. 排序性能: 评估不同评分指标(Rosetta 能量、ML 模型置信度等)对抽样序列进行排序的能力,以及与 Oracle 模型预测的适应性之间的相关性。使用斯皮尔曼相关系数。

实验内容包括:

4. 研究过程和结论

4.1 序列抽样

4.2 适应性预测 & 排序性能

斯皮尔曼相关性分析:

以下是不同数据集和评分指标之间的斯皮尔曼相关系数(ρ)摘要,数值来自论文的 Table 1:

Top 10 候选者分析

4.3 总结性结论

作者得出的主要结论是:

5. 总结和客观评价

本文对自监督机器学习方法在蛋白质设计中的应用进行了全面的评估。研究结果表明,ML 方法在序列抽样方面具有优势,但评分和排序仍然是一个挑战。未来的研究可以集中在开发更精确的评分函数、结合生物物理信息的 ML 模型以及针对特定任务进行微调的方法。总的来说,本文为蛋白质设计领域的 ML 应用提供了有价值的见解。

6. 参考文献和链接