FusOn-pLM: a fusion oncoprotein-specific language model via adjusted rate masking
** FusOn-pLM:一种通过调整掩码率的融合癌蛋白特异性语言模型 **
1. 研究背景知识
融合癌蛋白是一类由染色体易位产生的嵌合蛋白,它们是多种儿童癌症的主要驱动因素。这些蛋白质通常是内在无序的,并且缺乏可成药的口袋结构,这使得它们成为小分子和基于结构的药物设计方法都难以攻克的治疗靶点。
传统的药物开发策略难以有效靶向融合癌蛋白,因此,生物制剂,如抗体、微蛋白和肽类药物,代表了有吸引力的替代治疗方案。然而,针对这些“不可成药”的蛋白,需要更先进的设计方法来实现特异性靶向。
近年来,蛋白质语言模型 (pLMs) 已经成为捕获蛋白质物理化学和功能特征的强大工具。尽管如此,现有的 pLMs 尚未针对融合癌蛋白序列进行专门训练,而融合蛋白在功能和结构上都与其野生型对应物有所不同,这主要是由于它们改变的结合位点和独特的断点连接。因此,开发针对融合癌蛋白的特异性 pLM 具有重要的意义。
2. 文章概述
本文介绍了一种名为 FusOn-pLM 的新型蛋白质语言模型,它是在一个新 curated 的、全面的融合癌蛋白序列数据集 FusOn-DB 上进行微调的 pLM。为了优化特征提取和表征质量,研究者们采用了一种独特的 余弦退火掩码语言建模策略,FusOn-pLM 可以动态调整掩码率 (15%-40%)。
实验结果表明,FusOn-pLM 在融合蛋白特异性任务中,例如定位预测、凝聚体形成预测和无序性预测等方面,性能超越了基线模型。更重要的是,FusOn-pLM 能够独特地预测药物抗性突变,为预测抗性机制的治疗设计提供了新的见解。总而言之,FusOn-pLM 为推进融合驱动癌症的治疗发现提供了生物学相关的表征。
3. 方法介绍
3.1 数据集
-
FusOn-DB 数据集: 研究人员整合了来自 FusionPDB 和 FOdb 数据库的 44,414 个融合癌蛋白序列,构建了 FusOn-DB 数据集。这两个数据库分别提供了实验验证和计算预测的融合蛋白,具有临床或生物学相关性。FusOn-DB 数据集覆盖了 16,364 种独特的头尾融合。
-
数据预处理: 为了保证数据集的质量和非冗余性,研究人员进行了数据清洗和去重处理,并移除了长度超过 2000 个氨基酸的序列。最终用于训练的序列数量为 42,141 条。为了进行模型评估,数据集被划分为训练集 (80.01%)、验证集 (10.00%) 和测试集 (9.99%)。
-
ESM-2 预训练数据: 文章使用了预训练好的 ESM-2-650M 模型作为基础模型。ESM-2 是在一个包含约 6500 万个蛋白质序列的大型数据集 UniRef50 上预训练的。UniRef50 中包含了超过 9000 种已知作为融合蛋白头尾组分的野生型蛋白。
3.2 算法
-
模型架构: FusOn-pLM 基于 ESM-2-650M 模型,这是一个 33 层的 Transformer 模型。为了专注于融合癌蛋白的特性,研究人员解冻了 ESM-2-650M 模型的最后八层权重进行微调,而冻结了之前的层。模型使用 掩码语言建模 (MLM) 目标进行训练。
-
余弦退火掩码策略: 为了增强模型学习融合蛋白独特特性的能力,研究人员引入了一种 余弦退火掩码策略。该策略在每个训练 epoch 中动态调整掩码率,从 15% 线性增加到 40%,然后再线性降低回 15%,呈余弦函数变化。这种动态掩码策略旨在平衡表征学习 (低掩码率) 和重建质量 (高掩码率),从而优化模型性能。
3.3 训练过程
-
微调: FusOn-pLM 在 NVIDIA H100 GPU 上训练了 30 个 epochs,batch size 为 8,学习率为 3e-4。 使用 Adam 优化器,没有权重衰减。
-
序列长度: 训练仅使用了长度不超过 2000 个氨基酸的融合癌蛋白序列,较短的序列会被 padding 到最大长度。
3.4 评估过程
研究人员通过一系列融合蛋白特异性任务评估了 FusOn-pLM 的性能,包括:
-
融合蛋白特性预测:
- 凝聚体 (Puncta) 形成预测: 预测融合蛋白是否形成凝聚体,以及凝聚体是在细胞核、细胞质还是两者中形成。使用 XGBoost 分类器,评估指标包括准确率、精确率、召回率、F1 值和 AUROC。
- 内在无序区 (IDR) 特性预测: 预测 IDR 的四个物理性质:非球形性 (Asphericity)、末端到末端距离 (Re)、回旋半径 (Rg) 和聚合物标度指数 (Polymer Scaling Exponent)。使用多层感知机 (MLP) 回归模型,评估指标为决定系数 (R²) 和均方误差 (MSE)。
- 内在无序性预测: 预测每个氨基酸残基的无序概率。使用 Transformer 编码器分类模型 (FusOn-pLM-Diso),评估指标包括准确率、精确率、召回率、F1 值和 AUROC,并与 CAID2 竞赛中的其他无序预测器进行比较。
-
零样本突变发现: 通过 MLM head 逐个掩盖序列中的氨基酸,并预测原始氨基酸的概率分布。评估 FusOn-pLM 在预测药物抗性突变方面的能力,针对 EML4::ALK, BCR::ABL1 和 ETV6::NTRK3 等融合蛋白,考察模型是否能将已知的抗性突变排在预测的前列。
4. 研究内容与结论
文章的研究内容主要围绕 FusOn-pLM 模型的构建、训练和评估展开,旨在开发一种能够有效表征融合癌蛋白特性的蛋白质语言模型。
研究过程与主要发现:
-
融合蛋白序列数据集的构建: 研究人员整合了 FusionPDB 和 FOdb 数据库,构建了大规模的 FusOn-DB 数据集,为模型训练提供了数据基础。对 FusOn-DB 数据集的分析表明,融合蛋白在序列和结构上都与野生型蛋白有所不同,具有更高的无序性,突出了开发专门模型的必要性。
-
余弦退火掩码策略的有效性: 实验结果表明,与固定掩码率相比,余弦退火掩码策略能够显著提高模型的序列重建能力和下游任务的性能。这表明动态调整掩码率有助于模型更好地学习融合蛋白的复杂特征。
-
FusOn-pLM 在融合蛋白特异性任务上的优越性能: 在凝聚体形成预测、定位预测和无序性预测等任务中,FusOn-pLM 的性能均优于基线模型 (ESM-2-650M, ProtT5, FOdb embeddings)。这表明 FusOn-pLM 能够生成更有效地捕获融合蛋白关键特性的表征。
-
FusOn-pLM 准确预测 IDR 特性: FusOn-pLM-IDR 模型能够高精度地预测 IDR 的物理性质 (非球形性、末端到末端距离、回旋半径、聚合物标度指数) 和残基级别的无序概率,与 AlphaFold-pLDDT 衍生的无序标签高度一致。这进一步证明了 FusOn-pLM 能够有效捕捉融合蛋白的无序特性。
-
FusOn-pLM 零样本预测药物抗性突变: FusOn-pLM 成功预测了 EML4::ALK, BCR::ABL1 和 ETV6::NTRK3 等融合蛋白的已知药物抗性突变,并能识别潜在的抗性突变位点。这展示了 FusOn-pLM 在药物开发和预测抗性机制方面的潜力。
研究结论:
文章的主要结论是,FusOn-pLM 是一种有效的融合癌蛋白特异性语言模型,它通过余弦退火掩码策略和在 FusOn-DB 数据集上的微调,能够生成生物学相关的表征,并在融合蛋白特异性任务中表现出色。FusOn-pLM 尤其在预测药物抗性突变方面展现出独特的优势,为融合驱动癌症的治疗设计提供了新的工具和思路。
5. 总结与评价
总结:
这篇文章成功地开发了一种名为 FusOn-pLM 的新型蛋白质语言模型,专门用于表征融合癌蛋白。通过构建 FusOn-DB 数据集,并采用创新的余弦退火掩码策略,FusOn-pLM 在多个融合蛋白特异性任务中取得了显著的性能提升。更重要的是,FusOn-pLM 展现了预测药物抗性突变的潜力,为融合癌蛋白的药物开发和抗性机制研究提供了新的方向。
评价:
这篇文章具有很高的学术价值和应用前景。
-
创新性: 文章提出的余弦退火掩码策略和 FusOn-pLM 模型本身都具有创新性。针对融合蛋白的特殊性进行模型定制,并取得了显著效果,体现了研究者对问题的深入理解和解决问题的能力。
-
数据集的价值: FusOn-DB 数据集的构建为融合蛋白研究领域提供了宝贵的数据资源,未来可以被更广泛地应用于其他研究。
-
实验的充分性: 文章进行了全面的实验评估,包括多种融合蛋白特异性任务和零样本突变预测,充分验证了 FusOn-pLM 模型的有效性和泛化能力。
-
应用前景: FusOn-pLM 在药物抗性突变预测方面的潜力尤其令人兴奋,未来有望应用于指导融合驱动癌症的精准治疗,加速新药开发进程。
不足与展望:
文章作者也指出了 FusOn-pLM 的一些局限性,例如数据集的多样性、长序列的处理能力以及对驱动突变和调控元件的预测能力等。未来的研究可以从以下几个方面进一步拓展:
- 扩大和完善 FusOn-DB 数据集: 纳入更多来源的数据,提高数据集的多样性和覆盖面。
- 优化模型架构: 探索更高效的模型架构和训练方法,以处理更长的序列,并提高模型的性能。
- 探索更多应用: 将 FusOn-pLM 应用于驱动突变预测、调控元件关联等更多融合蛋白相关的任务,并进行实验验证。
- 结合实验验证: 加强与实验研究的结合,验证 FusOn-pLM 预测的药物抗性突变,并探索其在治疗设计中的实际应用价值。
总而言之,FusOn-pLM 的成功开发是融合蛋白研究领域的一个重要进展,为理解和治疗融合驱动癌症提供了新的有力工具。随着未来研究的深入,FusOn-pLM 有望在精准医学领域发挥更大的作用。