论文报告:变分视角下的生成式蛋白质适应性优化

1. 背景介绍

蛋白质适应性优化(Protein Fitness Optimization)是生物工程和药物发现领域中的一项关键任务,其目标是设计或改造蛋白质,使其在特定功能(如稳定性、结合亲和力、催化效率等)方面表现更优。这是一个极具挑战性的问题,主要原因在于:

关键术语解释

传统的蛋白质适应性优化方法主要依赖于定向进化,这种方法虽然有效,但耗时且探索范围有限。因此,需要开发更高效的计算方法(in-silico方法),以便在潜在序列空间中进行更广泛的探索,从而筛选出有希望的候选序列进行实验验证。

2. 核心概述

本文提出了一种名为变分隐变量生成蛋白质优化(Variational Latent Generative Protein Optimization, VLGPO)的新方法,它是一种基于变分推断的蛋白质适应性优化框架。该方法将蛋白质序列嵌入到一个连续的隐空间中,从而能够在该空间中高效地采样适应性分布。VLGPO结合了一个(学习得到的)序列突变流动匹配先验(flow matching prior)和一个适应性预测器,以指导优化过程朝着具有高适应性的序列方向发展。在两个不同复杂度的蛋白质基准测试中,VLGPO取得了目前最好的结果。此外,VLGPO的设计具有模块化和灵活性,可以根据不同的蛋白质设计任务进行定制。

3. 方法论和实验细节

3.1 数据集

论文使用了两个公共的蛋白质优化基准数据集:

每个数据集都分为Medium和Hard两个难度级别,难度由以下因素决定:

数据集的详细信息如下表所示:

任务 N Fitness↑ Fitness Range
GFP Medium 2828 0.09 [0.01, 0.62]
GFP Hard 2426 0.01 [0.0, 0.1]
AAV Medium 2139 0.32 [0.29, 0.38]
AAV Hard 3448 0.27 [0.0, 0.33]

其中,N表示数据集中序列的数量,Fitness↑ 表示中位数归一化适应度分数,Fitness Range表示适应度范围。数据集划分未明确说明,但提到使用部分数据训练预测器,完整数据集用于评估。

3.2 算法和模型

VLGPO 框架主要由以下几个核心组件构成:

  1. 变分自编码器(VAE)

    • 作用:将离散的蛋白质序列编码为连续的隐空间向量,并从隐空间解码回序列。
    • 编码器(Encoder) $E: V^d \rightarrow \mathbb{R}^l$:将蛋白质序列 $x \in V^d$ 映射到隐空间向量 $z \in \mathbb{R}^l$,其中 $V$ 是氨基酸词汇表,$d$ 是序列长度,$l$ 是隐空间的维度。
    • 解码器(Decoder) $D: \mathbb{R}^l \rightarrow \mathbb{R}^{d \times |V|}$:将隐空间向量 $z$ 映射回蛋白质序列空间,输出每个位置上氨基酸的logits。
    • 目标函数:使用$\beta$-VAE,最小化以下加权证据下界(ELBO):

    $$
    \min_{q_\mu, p_\nu} \mathbb{E}{z \sim q\mu(z|x)} [- \log p_\nu(x|z)] + \beta KL(q_\mu(z|x) || p(z))
    $$

    其中:

    • $q_\mu(z|x)$ 是编码器,$p_\nu(x|z)$ 是解码器。
    • $KL(q_\mu(z|x) || p(z))$ 是 $q_\mu(z|x)$ 和先验分布 $p(z)$ 之间的KL散度。
    • $\beta$ 是一个超参数,用于平衡重构损失和KL散度。
    • 由于离散的氨基酸tokens, $−\log p_\nu(x|z)$ 简化为交叉熵损失。
  2. 流动匹配模型(Flow Matching Model)

    • 作用:学习隐空间中蛋白质序列突变的分布,用于生成新的隐空间向量。

    • 原理:流动匹配模型旨在模拟概率流 $\Psi_t$ 的速度,该概率流控制着一个概率分布如何随时间演变成另一个分布的动态。 通过学习速度场 $u_t$,模型 $v_{\theta,t}$ 捕捉从时间 $t = 0$ 时的简单基础分布到时间 $t = 1$ 时的更复杂目标分布 $p(x)$ 的演变。

    • 目标函数:最小化条件流动匹配目标函数:
      $$
      \min_\theta \mathbb{E}{t, x_1, x_0} [||v{\theta,t}(l_t(x_0)) - (x_1 - x_0)||^2]
      $$
      其中:

      • $t \sim U[0,1]$, $x_1 \sim p(x)$, 并且$x_0 \sim N(0, I)$。
      • 条件流由$l_t(x_0) = (1-t)x_0+tx_1$给出。
      • 一旦经过训练,就可以通过时间 $t \in [0, 1]$ 的相应神经常微分方程 (ODE) 的数值积分来生成样本:
        $$
        \frac{d}{dt}\Psi_t(x) = v_{\theta,t}(\Psi_t(x))
        $$
  3. 适应性预测器(Fitness Predictor)

    • 作用:预测给定蛋白质序列的适应性,用于指导优化过程。
    • 模型:卷积神经网络(CNN),参数化CNN $g_\phi : V^d \rightarrow \mathbb{R}$用于推断给定序列的适应性。具体来说,使用$g_\phi$和$g_{\phi'}$作为预测器,它们分别在有和没有基于图的平滑的情况下在小的数据子集上进行训练。此外,使用在整个配对数据集S*上训练的$g_y$作为最终评估的in-silico oracle。
  4. 分类器指导(Classifier Guidance)

    • 作用:通过将适应性预测器的梯度融入到流动匹配模型的采样过程中,从而引导采样朝着具有更高适应性的序列方向发展。
    • 公式:修改生成框架中的速度场 $v_{\theta,t}$ 以结合此指导,从而产生以下变分更新:

    $$
    v_{\theta,t}(x|y) = v_{\theta,t}(x) + \alpha_t \nabla_x \log p(y|x)
    $$

    其中:

    • $\nabla_x \log p(y|x) \approx -\nabla_x ||g_\phi(x) - y||^2$ 表示序列 x 具有所需适应性 y 的对数似然的梯度。
    • $\alpha_t$ 是一个调度器相关的常数。
    • 为了将该过程导向最高适应性,简单地将 y 设置为 1,这表示标准化适应性频谱中的最高适应性。

3.3 训练和评估过程

4. 研究过程和结论

论文的主要研究过程和结论如下:

  1. VLGPO 框架的有效性:实验结果表明,VLGPO在AAV和GFP数据集的Medium和Hard难度任务上,都取得了优于其他基线方法的结果。这证明了VLGPO框架的有效性。
  2. 分类器指导的重要性:通过消融实验,论文证明了分类器指导对于提高生成序列的适应性至关重要。
  3. 流动匹配先验的优势:VLGPO 能够学习到一个有效的流动匹配先验,从而能够在隐空间中进行高效的采样。
  4. 与同类方法的比较:VLGPO优于 GWG(使用相同的预测器)和 GGS(使用相同的平滑预测器),突出了该方法在有限数据状态下的鲁棒性,并支持潜空间中引导式流动匹配先验的优势。gg-dWJS 虽然在概念上与 VLGPO 相似,但在 GFP 和 AAV(困难)方面的表现与研究结果并不完全一致。
  5. 对超参数选择的敏感性:对于更具挑战性的任务(如GFP(hard)),超参数选择变得更加关键,这表明,微调VLGPO能够进一步提升性能。
  6. oracle的重要性: 作者使用了更大的数据集训练了一个oracle模型用于评估,保证评估结果的可靠性。

实验结果分析

5. 总结和客观评价

本文提出了一种新颖的蛋白质适应性优化框架 VLGPO,该框架结合了变分自编码器、流动匹配模型和分类器指导。VLGPO 能够在有限的数据条件下,生成具有高适应性的蛋白质序列。实验结果表明,VLGPO 在多个蛋白质基准数据集上取得了优于其他基线方法的结果,证明了其有效性。

客观评价

总的来说,VLGPO 是一种有前景的蛋白质适应性优化方法,具有较高的研究价值和应用潜力。未来的研究可以集中在以下几个方面:

6. 参考文献和链接

希望这份报告对您有所帮助!