校准序列似然度提升条件语言生成

1. 背景介绍

条件语言生成（Conditional Language Generation）是自然语言处理（Natural Language Processing, NLP）领域的一个重要分支，其目标是根据给定的输入上下文（context）生成自然语言文本。这个领域涵盖了许多具有挑战性和实用性的任务，例如：

摘要生成（Abstractive Summarization）: 将一篇较长的文档压缩成简短的摘要，同时保留原文的主要信息。
- 专业术语解释:
  - 抽象式摘要 (Abstractive Summarization): 生成的摘要可能包含原文中没有的词语或短语，更接近人类撰写的摘要。
  - 抽取式摘要 (Extractive Summarization): 从原文中抽取关键句子或短语组成摘要。
生成式问答（Generative Question Answering）: 根据给定的上下文和问题，生成答案，而不是从预定义的选项中选择。
问题生成（Question Generation）: 给定一段文本，生成与该文本相关的问题。
数据到文本生成（Data-to-Text Generation）: 将结构化数据（例如表格、数据库记录）转换成自然语言描述。

目前，解决这些任务的主流方法是预训练大型 Transformer 编码器-解码器模型（Encoder-Decoder Models），并在下游任务上进行微调。这种范式利用了 Transformer 模型的强大表示能力和大规模预训练带来的知识迁移。

关键模型和算法解释:
- Transformer: 一种基于自注意力机制（Self-Attention Mechanism）的神经网络架构，擅长捕捉长距离依赖关系。
  - 自注意力机制 (Self-Attention Mechanism): 允许模型在处理序列的每个部分时，关注到序列的其他部分，从而更好地理解上下文。
- 编码器-解码器模型 (Encoder-Decoder Model): 包含两个主要部分：编码器将输入序列编码成一个固定长度的向量表示，解码器则根据这个向量表示生成目标序列。
- 预训练 (Pre-training): 在大规模无标注文本数据上训练模型，学习通用的语言表示。
- 微调 (Fine-tuning): 在特定任务的标注数据上继续训练预训练模型，使其适应特定任务。
- 最大似然估计 (Maximum Likelihood Estimation, MLE): 一种常用的训练目标，旨在最大化模型生成观察到的目标序列的概率。
  - 公式: L = - Σ log(Pθ(yi|xi)) = - Σ Σ log(Pθ(yt|y<t, xi)) 其中 N 是训练样本数量。

2. 核心概述

本论文研究了条件语言生成模型中一个普遍存在的问题：模型生成的序列的似然度（likelihood）与其质量之间的关系并不完全一致。具体来说，即使模型为某个序列分配了较高的概率，该序列的质量（例如，与参考文本的相似度）却不一定高。这种现象在束搜索（beam search）解码中尤为明显，较大的束大小有时会导致生成质量下降。为了解决这个问题，论文提出了一种名为“序列似然度校准”（Sequence Likelihood Calibration, SLiC）的方法，通过在模型的潜空间（latent space）中校准生成序列的似然度，使其与参考序列的相似度更好地对齐。实验结果表明，SLiC 方法可以显著提高模型在多个生成任务上的性能，并且无需使用常见的解码启发式方法（如长度归一化、重复抑制等）。此外，SLiC 的优势随着模型规模的增大而持续存在，为在有限的训练和推理预算下提高生成质量提供了新的途径。

3. 方法论和实验细节 (如果适用)

本论文提出的 SLiC 方法包含以下几个关键组成部分:

3.1 数据集

本论文使用了多个公开的条件语言生成数据集，涵盖了摘要生成、问答、问题生成和数据到文本生成等任务，包括：

摘要生成: CNN/DailyMail, XSUM, RedditTIFU-long, SAMSum
问答: MSMARCO NLG
问题生成: SQUAD QG
数据到文本生成: WebNLG-en, CommonGen

3.2 算法和模型

SLiC 的核心思想是在模型微调之后，增加一个额外的校准阶段。在这个阶段，模型会根据其自身在训练集上生成的候选序列（candidates）进行进一步训练。

算法流程（Algorithm 1）:

生成候选序列: 使用微调后的模型 Pθft(y|x) 在训练集 {x, y}n 上解码生成 m 个候选序列 {ŷ}m。
- 采用不同的解码方法，例如Beam Search, Diverse Beam Search (DBS), Nucleus Sampling。
校准训练: 使用提出的校准损失函数 L(θ) 继续训练模型 θ (初始化自 θft)。

公式: L(θ) = Σ Lcal(θ, s; x, ŷ, {y}m) + λLreg(θ, θft; x, ŷ)
* Lcal 是校准损失（Calibration Loss），衡量生成序列概率与其质量的匹配程度。
* s = s(ŷ, ỹ; x) 是相似度函数，衡量候选序列 ŷ 和目标序列 ỹ 在给定上下文 x 下的相似度。
* Lreg 是正则化损失（Regularization Loss），防止模型偏离微调后的状态过远。

相似度函数 (Similarity Function):

SLiC 使用模型解码器的输出隐状态（output hidden states）eL×D = emb(y, x) 来表示序列 y，其中 L 是序列长度，D 是隐状态维度。对于候选序列 ŷ 和目标序列 ỹ，SLiC 计算它们在 n 个 token 的跨度上的余弦相似度，并使用基于 F-measure 的函数 Fn 进行聚合。

公式: sθ(ŷ, ỹ; x) = Σ Fn(ê, ē) = Σ Fn(emb(ŷ, x), emb(ỹ, x))

$$
P_n(\hat{e}, \bar{e}) = \frac{1}{n} \sum \frac{\hat{e}{i:i+n}^T \max{j} e_{i:i+n} e_{j:j+n}}{|\hat{e}_{i:i+n}|}
$$

$$ R_n(\hat{e}, \bar{e}) = \frac{1}{n} \sum \frac{\max_{i} e_{i:i+n}^T e_{j:j+n}}{|\bar{e}_{j:j+n}|} $$

$$
F_n = 2 \frac{P_n \times R_n}{P_n + R_n}
$$
* Pn 表示精度（Precision）
* Rn 表示召回率（Recall）

校准损失 (Calibration Loss)

论文考虑了四种校准损失类型：

Rank loss: 优化正负样本对 (ŷ+, ŷ-) 的排序, 使得 s(ŷ+, ỹ; x) > s(ŷ-, ỹ; x)。
Margin loss: 最大化正负样本对的序列概率差距。
List-wise rank loss: 优化候选序列列表的排序。
Expected reward loss: 最大化候选序列列表的期望相似度。

正则化损失 (Regularization Loss)

为了防止模型在校准阶段偏离微调后的状态过远，SLiC 使用了两种正则化损失：

Cross entropy: 标准的微调 MLE 目标。
KL divergence: 直接最小化校准模型和微调模型在每个 token 上的概率分布距离。

候选序列解码方法 (Candidates Decoding Methods)

Beam Search
Diverse Beam Search (DBS)
Nucleus Sampling

3.3 训练和评估流程

SLIC 遵循预训练-微调-校准的流程。

预训练: 使用 PEGASUS 模型在大型文本语料库上进行预训练。
微调: 在特定任务的数据集上使用 MLE 目标进行微调。
校准: 使用 SLiC 方法进一步训练微调后的模型。

评估指标使用 ROUGE (1/2/L)。

4. 研究过程和结论

论文通过一系列消融实验（Ablation Studies）验证了 SLiC 方法中各个组成部分的作用，包括：

相似度函数: 比较了使用模型隐状态、直接优化 ROUGE 指标以及使用 token embedding 作为相似度函数的性能差异。结果表明，使用模型隐状态的相似度函数效果最佳。
校准损失: 比较了四种校准损失类型的性能。结果表明，Rank loss 效果最好。
正则化损失: 比较了 Cross entropy 和 KL divergence 正则化的效果。结果表明，两者效果相近。
候选序列解码方法: 比较了 Beam Search, Diverse Beam Search 和 Nucleus Sampling 的效果。结果表明，Beam Search 在平均质量上表现最好。

论文还分析了 SLiC 方法的几个重要特性：

解码候选序列数量的影响: 实验表明，校准后的模型质量随着解码候选序列数量的增加而单调提升，而微调后的模型则存在一个最优值。
长度归一化和重复抑制的需求: 实验表明，校准后的模型不再需要长度归一化和重复抑制等解码启发式方法。
模型规模的影响: 实验表明，SLiC 的优势随着模型规模的增大而持续存在。

最终，论文将 SLiC 方法应用于多个语言生成任务，并在所有任务上取得了与 SOTA 模型相当或更好的结果。

5. 总结和客观评价

本论文提出了一种新颖的序列似然度校准（SLiC）方法，用于改进条件语言生成模型的性能。SLiC 通过在模型的潜空间中校准生成序列的似然度，使其与参考序列的相似度更好地对齐，从而解决了模型生成的序列似然度与其质量不一致的问题。

客观评价:

优点:
- 方法简单有效，易于实现和部署。
- 显著提高了模型在多个生成任务上的性能。
- 无需使用常见的解码启发式方法。
- 优势随着模型规模的增大而持续存在。
局限性:
- 需要额外的校准阶段，增加了训练时间。
- 相似度函数的选择可能对性能有影响。

总体而言，SLiC 是一种有价值的条件语言生成模型训练方法，为提高生成质量提供了新的思路。该方法具有较强的实用性和可扩展性，有望在未来的研究和应用中得到广泛应用。

6. 参考文献和链接

论文链接: arXiv:2210.00045v1
代码仓库: (论文中未提供，但可能在后续发布)
数据集链接: 论文中提供了多个数据集的下载链接，详见论文附录 A。

希望这份报告对您有所帮助！

[Arxiv] Calibrating Sequence likelihood Improves Conditional Language Generation