利用弹性权重整合改进计划采样用于神经机器翻译

EMNLPSep, 2021

利用弹性权重整合改进计划采样用于神经机器翻译

Improving Scheduled Sampling with Elastic Weight Consolidation for Neural Machine Translation

Michalis Korakakis, Andreas Vlachos

TL;DR通过系统实验，本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点，该计划加剧了当推理时间的前缀是正确的时的性能下降，即灾难性忘记。因此，提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明，该方法缓解了灾难性忘记问题，并显著优于最大似然估计和计划抽样对照组。

Abstract

Despite strong performance in many sequence-to-sequence tasks, autoregressive models trained with maximum likelihood estimation suffer from exposure bias, i.e. the discrepancy between the ground-truth prefixes used during training and the model-generated prefixes used at inference time

autoregressive models exposure bias scheduled sampling elastic weight consolidation translation datasets

发现论文，激发创造

神经机器翻译置信度感知的计划采样

本文提出了基于置信度的定时采样策略，针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题，通过使用模型预测的置信度来量化实时模型表现，并设计了细粒度的采样策略。实验结果表明，该策略在 Transformer 模型上显著优于 Vanilla 定时采样，可以提高翻译质量和收敛速度。

Jul, 2021

基于解码步骤的神经机器翻译定时采样

本研究提出基于解码步骤的计划采样方法，可以更真实地模拟训练过程中的推理场景，从而更好地弥合训练和推理之间的差距。实验证明，这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样，并且在两个流行基准测试中也具有很好的泛化性能。

Aug, 2021

Transformer 的计划采样

该研究提出了一种双重解码策略使得计划采样技术可以应用于 Transformer 模型，以解决序列生成中出现的曝光偏置问题，该技术可大幅提高模型的性能，并表明其具有进一步探索的潜力。

Jun, 2019

并行计划采样

本文介绍了一种简单的方法，通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”，并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。

Jun, 2019

使用弹性权重一致性进行神经机器翻译的无监督预训练

本文研究了神经机器翻译中的无监督预训练方法，使用 Elastic Weight Consolidation 对双向编码器和解码器进行初始化，通过 fine-tune 来避免原始语言建模任务的遗忘，并将其与以前的正则化工作进行比较，结果表明使用这种方法可以快速收敛而且不需要原始未标记的数据。

Oct, 2020

神经机器翻译中带有灵活参照词序的可微分采样

该研究论文介绍了一种新的可微分采样算法，该算法通过基于模型预测的软对齐来优化参考与采样输出之间的对齐概率，从而提高机器翻译的 BLEU 值，并在 IWSLT 翻译任务中取得较大的改进。

Apr, 2019

弹性权重巩固以获得更好的偏差接种

使用 EWC 精细调优可以减轻训练数据集中的偏见，同时对于原始训练数据集的遗忘率较低。

Apr, 2020

神经文本生成中的动态计划采样与模仿损失

本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型，该模型通过引入模仿损失和动态调度表，解决了常见的曝光偏差问题，在标准机器翻译基准测试数据集上获得了显著的性能提升，并提高了其他文本生成模型的鲁棒性。

Jan, 2023

多任务学习自适应调度

研究了不同的任务调度方法以在多个任务（语言）上同时训练神经机器翻译模型，包括现有的非自适应技术和自适应调度技术，并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对（少量数据的任务）中表现更好，同时最小化对高资源任务的负面影响。

Sep, 2019

对话生成的双层计划抽样

本文提出了一种双层预训练采样模型，结合句子级信息和单词级质量，并利用平滑函数将两者的综合结果映射到适当的范围，基于映射值进行概率采样。在 DailyDialog 和 PersonaChat 数据集上的实验证明了我们提出的方法的有效性，明显缓解了暴露偏差问题，并超过了最先进的预训练采样方法。

Sep, 2023