[AAAI 25] Controllable Protein Sequence Generation with LLM Preference Optimization

1. 背景知识

蛋白质设计是生物医药领域的一个重要研究方向，旨在创建具有特定生物化学功能的蛋白质。这在药物发现、疫苗设计和酶工程等领域具有广阔的应用前景。近年来，预训练的蛋白质大语言模型（LLMs）在蛋白质序列生成方面表现出巨大潜力。然而，如何有效地控制LLM生成具有特定属性（例如，功能和结构稳定性）的蛋白质序列仍然是一个挑战。现有的方法在功能性和结构稳定性方面表现不佳，尤其是在需要同时控制多个属性时。结构稳定性是指蛋白质能够正确折叠成稳定三维结构的能力，这对于其功能的发挥至关重要。

2. 文章概述

本文提出了一种名为 CtrlProt 的新型可控蛋白质设计方法。该方法通过一种新的多列表偏好优化策略（multi-listwise preference optimization strategy）来微调蛋白质LLM，从而提高生成质量并支持多属性可控生成。实验结果表明，CtrlProt 能够有效地满足功能性和结构稳定性要求，在单属性和多属性蛋白质序列生成方面均实现了最先进的性能。

3. 方法详解

数据集：
- 文章从UniProtKB数据库中提取了带有基因本体论（Gene Ontology, GO）术语的蛋白质序列，并从AlphaFold蛋白质结构数据库中获取了相应的结构。
- 选择了六个GO术语作为属性进行研究，这些术语来自三个不同的方面：
  - 分子功能本体（MFO）：金属离子结合（metal ion binding）和RNA结合（RNA binding）。
  - 生物过程本体（BPO）：磷酸化（phosphorylation）和翻译（translation）。
  - 细胞组分本体（CCO）：细胞质（cytoplasm）和细胞核（nucleus）。
- 每个属性包含1万个蛋白质序列用于训练。
算法：
- CtrlProt方法的核心是多列表偏好优化。该方法基于以下几个关键步骤：
  1. 有监督的微调（Supervised Finetuning）: 使用prefix-tuning（前缀调优）方法在LLM上对每个属性进行微调。Prefix-tuning通过在输入序列前添加可训练的前缀来引导LLM生成具有特定属性的序列。
  2. DPO数据构建（DPO Data Construction）: 从微调后的模型中生成大量的候选序列，并使用功能性和稳定性指标对这些序列进行评估。
  3. 多列表偏好优化（Multi-listwise Preference Optimization）: 利用DPO构建的数据集，使用多列表偏好优化损失函数来进一步微调LLM。
- 文章使用ProtGPT2作为基础LLM。
- 训练过程：
  - Prefix-tuning：批量大小为16，学习率为1e-4，前缀令牌数为100。
  - 偏好优化：每个属性使用5k对序列，学习率为5e-5，β=0.1，α=0.05。
  - 最大生成长度为400。
- 评估指标：
  - CLS-score：使用在评估集上微调的ESM-2模型作为分类器，将分类概率作为分类器得分。
  - TM-score和RMSD：使用Foldseek评估与评估集的结构相似性。
  - pLDDT：预测的局部距离差异测试，用于评估蛋白质结构预测的置信度。
损失函数：
- 有监督的微调损失：
  $$
  L_{sft} = - \sum_{i=1}^{k} log , p_{\theta} (a_i | a_{<i}, P_A)
  $$
  其中，$P_A$表示与属性$A$相关的前缀，$a_i$表示蛋白质序列中的第$i$个氨基酸，$a_{<i}$表示$a_i$之前的氨基酸序列，$p_{\theta}$是LLM。
- 多列表偏好优化损失：
  $$
  L_{MLPO} (\pi_{\theta}; \pi_{ref}) = -E_{(x, y_w, y_l) \sim D} \left[ log , \sigma \left( \beta \left( r^(x, y_w) - r^(x, y_l) \right) - \alpha (\rho(y_w) - \rho(y_l)) \right) \right]
  $$
  
  其中：
  - $L_{MLPO}$是多列表偏好优化损失。
  - $E_{(x, y_w, y_l) \sim D}$表示在数据集$D$上的期望。$x$是输入，$y_w$是preferred序列，$y_l$ 是rejected序列。
  - $\sigma$是sigmoid函数。
  - $\beta$是温度参数，控制偏好的强度。
  - $r^*(x, y)$是奖励函数，使用KL散度计算。
  - $\alpha$是调整强度。$\alpha (\rho(y_w) - \rho(y_l))$表示偏好优化对之间的差异，并且作为一个正则项影响训练过程。
  - $\rho(y)$是质量得分函数，用于评估蛋白质序列的质量。

4. 实验过程与结果

实验设计：
- 文章在六个单属性数据集和六个多属性组合数据集上评估了CtrlProt的性能。
- 将CtrlProt与六个具有竞争力的基线模型进行了比较，包括ESM-1b、ESM-2、EvoDiff、PrefixProt、ProGen2和ProLLaMA。
- 使用了CLS-score、TM-score、RMSD和pLDDT等指标来综合评估序列的质量。
实验结果：
- CtrlProt在单属性和多属性生成任务中均优于基线模型。
- CtrlProt在pLDDT和TM-score方面表现出显著优势，表明生成的序列具有更高的结构稳定性和与天然蛋白质的结构相似性。
- 消融研究表明，功能性和结构稳定性指标对于CtrlProt的性能至关重要。
- 多样性分析表明，CtrlProt能够生成高质量且多样化的蛋白质序列，而不会过度拟合训练集。

5. 总结与评价

CtrlProt 是一种很有潜力的可控蛋白质设计方法。通过多列表偏好优化，CtrlProt 能够有效地提高生成蛋白质序列的质量，并在功能性和结构稳定性之间取得良好的平衡。实验结果充分证明了该方法的有效性。

优点：
- 提出了一种新颖的多列表偏好优化策略，能够有效地提高可控蛋白质序列生成的质量。
- 在单属性和多属性生成任务中均取得了最先进的性能。
- 通过综合实验验证了方法的有效性和合理性。
不足：
- 对于某些属性组合，实现更精确和可编程的生成仍然是一个挑战。
- 该方法依赖于高质量的蛋白质结构数据，这可能会限制其在缺乏结构信息的蛋白质设计中的应用。

6. Reference

https://github.com/nju-websoft/CtrlProt