1. 背景知识

蛋白质设计是生物医药领域的一个重要研究方向,旨在创建具有特定生物化学功能的蛋白质。这在药物发现、疫苗设计和酶工程等领域具有广阔的应用前景。近年来,预训练的蛋白质大语言模型(LLMs)在蛋白质序列生成方面表现出巨大潜力。然而,如何有效地控制LLM生成具有特定属性(例如,功能和结构稳定性)的蛋白质序列仍然是一个挑战。现有的方法在功能性和结构稳定性方面表现不佳,尤其是在需要同时控制多个属性时。结构稳定性是指蛋白质能够正确折叠成稳定三维结构的能力,这对于其功能的发挥至关重要。

2. 文章概述

本文提出了一种名为 CtrlProt 的新型可控蛋白质设计方法。该方法通过一种新的多列表偏好优化策略(multi-listwise preference optimization strategy)来微调蛋白质LLM,从而提高生成质量并支持多属性可控生成。实验结果表明,CtrlProt 能够有效地满足功能性和结构稳定性要求,在单属性和多属性蛋白质序列生成方面均实现了最先进的性能。

3. 方法详解

4. 实验过程与结果

5. 总结与评价

CtrlProt 是一种很有潜力的可控蛋白质设计方法。通过多列表偏好优化,CtrlProt 能够有效地提高生成蛋白质序列的质量,并在功能性和结构稳定性之间取得良好的平衡。实验结果充分证明了该方法的有效性。

6. Reference

https://github.com/nju-websoft/CtrlProt