[Arxiv] A Variational Perspective on Generative Protein Fitness Optimization

论文报告：变分视角下的生成式蛋白质适应性优化

1. 背景介绍

蛋白质适应性优化（Protein Fitness Optimization）是生物工程和药物发现领域中的一项关键任务，其目标是设计或改造蛋白质，使其在特定功能（如稳定性、结合亲和力、催化效率等）方面表现更优。这是一个极具挑战性的问题，主要原因在于：

巨大的搜索空间：蛋白质序列的组合可能性随序列长度呈指数增长，形成一个巨大的“适应性景观”（Fitness Landscape）。假设蛋白质由d个氨基酸组成，每个位置有20种氨基酸选择，那么搜索空间的大小为 $20^d$。
稀疏的有效序列：在如此庞大的搜索空间中，只有极少数序列具有实际的生物学功能。
蛋白质序列的离散性：蛋白质序列由离散的氨基酸组成，使得传统的基于梯度的方法难以应用。
Epistasis（上位性）：不同位点的氨基酸之间存在相互作用，一个位点的突变可能影响其他位点突变的效果，使适应性景观变得复杂和崎岖不平(Ruggedness)。

关键术语解释：

适应性（Fitness）：蛋白质的某种生物学特性，例如稳定性、结合亲和力或催化效率。
适应性景观（Fitness Landscape）：描述蛋白质序列空间中，序列与其适应性之间关系的图景。
从头设计 (In-silico)：通过计算机模拟和计算方法进行的蛋白质设计。
定向进化（Directed Evolution）：在实验室中模拟自然进化过程，通过多轮突变和筛选来优化蛋白质功能。
上位性 (Epistasis): 一个基因的表达受到另一个基因影响的现象。在蛋白质中，指一个氨基酸位点的突变影响其他位点突变效果的现象。

传统的蛋白质适应性优化方法主要依赖于定向进化，这种方法虽然有效，但耗时且探索范围有限。因此，需要开发更高效的计算方法（in-silico方法），以便在潜在序列空间中进行更广泛的探索，从而筛选出有希望的候选序列进行实验验证。

2. 核心概述

本文提出了一种名为变分隐变量生成蛋白质优化（Variational Latent Generative Protein Optimization, VLGPO）的新方法，它是一种基于变分推断的蛋白质适应性优化框架。该方法将蛋白质序列嵌入到一个连续的隐空间中，从而能够在该空间中高效地采样适应性分布。VLGPO结合了一个（学习得到的）序列突变流动匹配先验(flow matching prior)和一个适应性预测器，以指导优化过程朝着具有高适应性的序列方向发展。在两个不同复杂度的蛋白质基准测试中，VLGPO取得了目前最好的结果。此外，VLGPO的设计具有模块化和灵活性，可以根据不同的蛋白质设计任务进行定制。

3. 方法论和实验细节

3.1 数据集

论文使用了两个公共的蛋白质优化基准数据集：

腺相关病毒 (AAV)：用于基因治疗的病毒载体。任务目标是优化AAV衣壳蛋白，以提高其在特定细胞中的递送效率。
绿色荧光蛋白 (GFP)：一种广泛使用的生物标记物。任务目标是优化GFP的荧光强度。

每个数据集都分为Medium和Hard两个难度级别，难度由以下因素决定：

序列适应性百分比范围：考虑的序列的适应性百分比范围（20-40%为Medium，<30%为Hard）。
突变间隙：达到S*的第99个适应性百分位数的任何序列所需的突变差距（Medium为6个突变，Hard为7个突变），其中S*是完整数据集。

数据集的详细信息如下表所示：

任务	N	Fitness↑	Fitness Range
GFP Medium	2828	0.09	[0.01, 0.62]
GFP Hard	2426	0.01	[0.0, 0.1]
AAV Medium	2139	0.32	[0.29, 0.38]
AAV Hard	3448	0.27	[0.0, 0.33]

其中，N表示数据集中序列的数量，Fitness↑ 表示中位数归一化适应度分数，Fitness Range表示适应度范围。数据集划分未明确说明，但提到使用部分数据训练预测器，完整数据集用于评估。

3.2 算法和模型

VLGPO 框架主要由以下几个核心组件构成：

变分自编码器（VAE）：
- 作用：将离散的蛋白质序列编码为连续的隐空间向量，并从隐空间解码回序列。
- 编码器（Encoder） $E: V^d \rightarrow \mathbb{R}^l$：将蛋白质序列 $x \in V^d$ 映射到隐空间向量 $z \in \mathbb{R}^l$，其中 $V$ 是氨基酸词汇表，$d$ 是序列长度，$l$ 是隐空间的维度。
- 解码器（Decoder） $D: \mathbb{R}^l \rightarrow \mathbb{R}^{d \times |V|}$：将隐空间向量 $z$ 映射回蛋白质序列空间，输出每个位置上氨基酸的logits。
- 目标函数：使用$\beta$-VAE，最小化以下加权证据下界（ELBO）：
$$
\min_{q_\mu, p_\nu} \mathbb{E}{z \sim q\mu(z|x)} [- \log p_\nu(x|z)] + \beta KL(q_\mu(z|x) || p(z))
$$

其中：
- $q_\mu(z|x)$ 是编码器，$p_\nu(x|z)$ 是解码器。
- $KL(q_\mu(z|x) || p(z))$ 是 $q_\mu(z|x)$ 和先验分布 $p(z)$ 之间的KL散度。
- $\beta$ 是一个超参数，用于平衡重构损失和KL散度。
- 由于离散的氨基酸tokens， $−\log p_\nu(x|z)$ 简化为交叉熵损失。
流动匹配模型（Flow Matching Model）：
- 作用：学习隐空间中蛋白质序列突变的分布，用于生成新的隐空间向量。
- 原理：流动匹配模型旨在模拟概率流 $\Psi_t$ 的速度，该概率流控制着一个概率分布如何随时间演变成另一个分布的动态。通过学习速度场 $u_t$，模型 $v_{\theta,t}$ 捕捉从时间 $t = 0$ 时的简单基础分布到时间 $t = 1$ 时的更复杂目标分布 $p(x)$ 的演变。
- 目标函数：最小化条件流动匹配目标函数：
  $$
  \min_\theta \mathbb{E}{t, x_1, x_0} [||v{\theta,t}(l_t(x_0)) - (x_1 - x_0)||^2]
  $$
  其中：
  - $t \sim U[0,1]$, $x_1 \sim p(x)$, 并且$x_0 \sim N(0, I)$。
  - 条件流由$l_t(x_0) = (1-t)x_0+tx_1$给出。
  - 一旦经过训练，就可以通过时间 $t \in [0, 1]$ 的相应神经常微分方程 (ODE) 的数值积分来生成样本：
    $$
    \frac{d}{dt}\Psi_t(x) = v_{\theta,t}(\Psi_t(x))
    $$
适应性预测器（Fitness Predictor）：
- 作用：预测给定蛋白质序列的适应性，用于指导优化过程。
- 模型：卷积神经网络（CNN），参数化CNN $g_\phi : V^d \rightarrow \mathbb{R}$用于推断给定序列的适应性。具体来说，使用$g_\phi$和$g_{\phi'}$作为预测器，它们分别在有和没有基于图的平滑的情况下在小的数据子集上进行训练。此外，使用在整个配对数据集S*上训练的$g_y$作为最终评估的in-silico oracle。
分类器指导（Classifier Guidance）：
- 作用：通过将适应性预测器的梯度融入到流动匹配模型的采样过程中，从而引导采样朝着具有更高适应性的序列方向发展。
- 公式：修改生成框架中的速度场 $v_{\theta,t}$ 以结合此指导，从而产生以下变分更新：
$$
v_{\theta,t}(x|y) = v_{\theta,t}(x) + \alpha_t \nabla_x \log p(y|x)
$$

其中：
- $\nabla_x \log p(y|x) \approx -\nabla_x ||g_\phi(x) - y||^2$ 表示序列 x 具有所需适应性 y 的对数似然的梯度。
- $\alpha_t$ 是一个调度器相关的常数。
- 为了将该过程导向最高适应性，简单地将 y 设置为 1，这表示标准化适应性频谱中的最高适应性。

3.3 训练和评估过程

VAE 训练：使用Adam优化器，学习率为0.001，对AAV和GFP，卷积架构的$\beta \in {0.01, 0.001}$训练编码器$\varepsilon$和解码器$D$。
流动匹配模型训练：使用用于降噪扩散概率模型 (DDPM) 的常用1D CNN。使用 5e-5 的学习率和 1024 的批量大小训练 $v_{\theta,t}$ 1000 个epoch。
推理过程：
1. 从标准正态分布 $z_0 \sim N(0, I)$ 中采样一个隐空间向量。
2. 使用 K = 32 个 ODE 步骤整合学习到的流动，直到获得 $z_1$。
3. 为了优化序列适应性，为所有样本选择条件 $y = 1$。通过超参数搜索确定参数 $\alpha_t$ 和 $J$。
4. 生成 512 个样本 $z_1$ 以鼓励从整个学习分布中采样，然后使用 $x = D(z_1)$ 对它们进行解码。
5. 过滤掉潜在的重复数据，并选择由预测器（分别为 $g_\phi$ 或 $g_{\phi'}$）排名的前 k (k = 128) 个样本。
评估指标：
- 中位数归一化适应性 (Median Normalized Fitness)
- 多样性 (Diversity)
- 新颖性 (Novelty)
  如附录A.2中所述，用于评估生成序列的指标。使用oracle $g_y$进行评估。

4. 研究过程和结论

论文的主要研究过程和结论如下：

VLGPO 框架的有效性：实验结果表明，VLGPO在AAV和GFP数据集的Medium和Hard难度任务上，都取得了优于其他基线方法的结果。这证明了VLGPO框架的有效性。
分类器指导的重要性：通过消融实验，论文证明了分类器指导对于提高生成序列的适应性至关重要。
流动匹配先验的优势：VLGPO 能够学习到一个有效的流动匹配先验，从而能够在隐空间中进行高效的采样。
与同类方法的比较：VLGPO优于 GWG（使用相同的预测器）和 GGS（使用相同的平滑预测器），突出了该方法在有限数据状态下的鲁棒性，并支持潜空间中引导式流动匹配先验的优势。gg-dWJS 虽然在概念上与 VLGPO 相似，但在 GFP 和 AAV（困难）方面的表现与研究结果并不完全一致。
对超参数选择的敏感性：对于更具挑战性的任务（如GFP（hard）），超参数选择变得更加关键，这表明，微调VLGPO能够进一步提升性能。
oracle的重要性: 作者使用了更大的数据集训练了一个oracle模型用于评估，保证评估结果的可靠性。

实验结果分析：

VLGPO在所有任务中都优于其他基线方法，表明了其优越的性能。
VLGPO在使用非平滑预测器 gφ 和使用平滑预测器 gφ' 时的性能差异表明，平滑化可以提高生成序列的多样性，但可能会牺牲一定的适应性。
消融实验表明，移除分类器指导会导致性能显著下降，这强调了分类器指导在 VLGPO 框架中的重要性。
论文还分析了 VLGPO 的生成序列在适应性景观中的分布情况，发现 VLGPO 能够生成具有更高适应性的序列，并且这些序列在新颖性和多样性方面也具有良好的表现。

5. 总结和客观评价

本文提出了一种新颖的蛋白质适应性优化框架 VLGPO，该框架结合了变分自编码器、流动匹配模型和分类器指导。VLGPO 能够在有限的数据条件下，生成具有高适应性的蛋白质序列。实验结果表明，VLGPO 在多个蛋白质基准数据集上取得了优于其他基线方法的结果，证明了其有效性。

客观评价：

优点：
- VLGPO 框架具有模块化和灵活性，可以根据不同的蛋白质设计任务进行定制。
- VLGPO 能够学习到一个有效的流动匹配先验，从而能够在隐空间中进行高效的采样。
- VLGPO 在多个蛋白质基准数据集上取得了优于其他基线方法的结果。
缺点：
- VLGPO 的性能对超参数的选择比较敏感，需要进行仔细的调整。
- VLGPO 的评估主要依赖于 in-silico 方法，缺乏实验验证。

总的来说，VLGPO 是一种有前景的蛋白质适应性优化方法，具有较高的研究价值和应用潜力。未来的研究可以集中在以下几个方面：

探索 VLGPO 在更多蛋白质设计任务中的应用。
开发更高效的超参数优化方法。
进行更多的实验验证，以评估 VLGPO 在实际应用中的性能。
探索使用预训练蛋白质语言模型的嵌入来代替 VAE，因为这种嵌入提供了更具表现力的潜在表示。然而，这将需要微调解码器以确保忠实的序列重建，这可能容易过度拟合，因为所使用的数据集大小有限。

6. 参考文献和链接

论文链接：文中未提供论文链接，请补充。
代码仓库：文中未提供代码仓库链接，请补充。
数据集链接：使用了AAV和GFP公共数据集，具体链接请参考论文中引用的 (Kirjner et al., 2023)。

希望这份报告对您有所帮助！