基于似然函数的蛋白质语言模型微调用于少样本适应性预测和设计

这篇文章讲述如何有效地微调蛋白质语言模型 (Protein Language Models, PLMs),以提升其在少样本 (few-shot) 条件下的蛋白质适应性 (fitness) 预测和序列设计能力。

1. 背景知识

自然界中的蛋白质序列是长期进化和自然选择的结果。蛋白质语言模型 (PLMs) 通过学习大量自然蛋白质序列的数据,能够隐式地捕捉到蛋白质序列中蕴含的分布约束,这些约束与蛋白质的功能和结构息息相关。因此,PLMs 可以作为有效的零样本 (zero-shot) 预测器,直接预测氨基酸突变对蛋白质适应性的影响。

近年来,研究人员提出了多种利用 PLMs 蕴含的分布知识来提升有监督的蛋白质适应性预测和序列设计任务的方法。然而,由于缺乏对不同预测策略和不同类型 PLM 模型的全面比较,目前尚不清楚哪种方法性能最佳。

本文着重解决这个问题,并在以下几个方面做出了贡献:

总而言之,本文旨在探索如何更好地利用 PLMs 的零样本预测能力,结合少量有标签数据,来提升蛋白质适应性预测和序列设计的性能,特别是在数据稀缺的实际场景中。

2. 文章概述

本文研究了如何通过微调蛋白质语言模型 (PLMs) 来提高少样本 (few-shot) 蛋白质适应性预测和序列设计的效果。作者扩展了先前提出的基于排序的损失函数,为掩码 PLM (如 ESM-1v, ESM-2) 和家族式自回归 PLM (如 POET) 开发了基于似然的评分函数。

文章首先对比了基于排序损失的微调基于均方误差 (MSE) 的回归微调,以及基于冻结嵌入的 SOTA 方法 (ProteinNPT)。实验结果表明,在低数据量情况下,基于排序损失的微调方法优于其他方法,尤其对于家族式 PLM 模型 POET 提升显著。

此外,作者还提出了集成策略,利用 PLMs 学习到的突变分布对序列上下文的强依赖性,进一步提升预测性能,并应用于指导蛋白质适应性景观 (fitness landscapes) 的高效优化。

实验结果表明,本文提出的基于似然函数和排序损失的微调方法,以及集成策略,在少样本蛋白质适应性预测和序列设计任务中,相较于现有方法,能够取得更优的性能。

Image

3. 方法详解

3.1. 数据集

本文使用了 ProteinGym 数据集,这是一个包含多个蛋白质突变景观 (mutational landscapes) 的数据集,每个景观包含一组蛋白质序列以及实验测定的适应性数值。

对于每个景观,作者在 低数据量 (low-data) 设置下进行实验,训练集大小 n 分别为 32, 128 或 512 个序列,评估集大小为单突变景观 2000 个序列,多突变景观 5000 个序列。此外,使用额外的 128 个随机采样的序列作为验证集,用于提前停止 (early stopping)。

3.2. 算法

本文主要使用了以下几种蛋白质语言模型 (PLMs):

并对比了以下基线方法:

微调策略 (Fine-tuning Strategies):

本文的核心方法是使用排序损失函数 (Ranking-based loss functions) 来微调 PLMs 的似然函数,并与以下方法进行对比:

评分函数 (Scoring Functions):

损失函数 (Loss Functions):

3.3. 训练和评估

4. 实验结果与分析

文章通过多组实验,深入评估了所提出方法的有效性,并与现有方法进行了对比,主要结果如下:

结果 1: 排序损失微调优于回归微调

在 Table 1 中,作者对比了排序损失微调和回归微调 (MSE) 的性能。结果显示:

结果 2: 排序损失微调优于基于冻结嵌入的模型

作者将最佳的排序损失微调方案与基于冻结嵌入的 ProteinNPT 基线模型进行比较。结果表明:

结果 3: 排序损失微调能更好地泛化到未见位点

Table 2 评估了微调方法在测试集中未见突变位点的泛化能力。结果表明:

结果 4: 掩码评分策略捕捉上位性效应

Table 3 比较了不同的掩码 PLM 评分策略在多突变 ProteinGym 景观上的性能。结果表明:

结果 5: 集成方法提升性能

Table 4 和 Figure 1 展示了集成 PLM 模型在适应性预测和序列设计任务上的性能。结果表明:

5. 总结与评价

本文深入研究了基于似然函数微调蛋白质语言模型 (PLMs) 用于少样本适应性预测和序列设计的方法。通过扩展基于排序的损失函数,作者成功地将排序损失微调策略应用于掩码 PLM (ESM-1v, ESM-2) 和家族式自回归 PLM (POET) 模型,并取得了显著的性能提升。

文章的主要贡献和亮点包括:

文章的局限性或未来方向:

总而言之,这篇文章为蛋白质语言模型在少样本蛋白质工程领域的应用提供了重要的理论和实践指导,证明了基于似然函数和排序损失的微调方法,以及集成策略,是提升 PLMs 性能的有效途径,尤其是在数据受限的实际场景中。

7. Reference

Likelihood-based Finetuning of Protein Language Models for Few-shot Fitness Prediction and Design

代码链接: 文中没有明确给出代码链接,但提到了 ProteinNPT 的代码是公开可用的,可以参考 Notin et al. (2023b) 的论文或代码仓库。