Transformer 的计划采样

Jun, 2019

Scheduled Sampling for Transformers

Tsvetomila Mihaylova, André F. T. Martins

TL;DR该研究提出了一种双重解码策略使得计划采样技术可以应用于 Transformer 模型，以解决序列生成中出现的曝光偏置问题，该技术可大幅提高模型的性能，并表明其具有进一步探索的潜力。

Abstract

scheduled sampling is a technique for avoiding one of the known problems in sequence-to-sequence generation: exposure bias. It consists of feeding the model a mix of the teacher forced embeddings and the model pr

scheduled sampling exposure bias transformer model recurrent neural networks two-pass decoding

发现论文，激发创造

神经机器翻译置信度感知的计划采样

本文提出了基于置信度的定时采样策略，针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题，通过使用模型预测的置信度来量化实时模型表现，并设计了细粒度的采样策略。实验结果表明，该策略在 Transformer 模型上显著优于 Vanilla 定时采样，可以提高翻译质量和收敛速度。

Jul, 2021

基于解码步骤的神经机器翻译定时采样

本研究提出基于解码步骤的计划采样方法，可以更真实地模拟训练过程中的推理场景，从而更好地弥合训练和推理之间的差距。实验证明，这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样，并且在两个流行基准测试中也具有很好的泛化性能。

Aug, 2021

并行计划采样

本文介绍了一种简单的方法，通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”，并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。

Jun, 2019

神经文本生成中的动态计划采样与模仿损失

本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型，该模型通过引入模仿损失和动态调度表，解决了常见的曝光偏差问题，在标准机器翻译基准测试数据集上获得了显著的性能提升，并提高了其他文本生成模型的鲁棒性。

Jan, 2023

使用并行计划采样和相对位置嵌入器改进 Transformer 对于语音识别的泛化能力

本文中，我们提出了一种采用 parallel scheduling sampling (PSS) 和 relative positional embedding (RPE) 来帮助 Transformer 泛化到看不见的数据的方法。我们的方法在 10,000 小时普通话自动语音识别任务上，对于短语音有 7% 的相对改进和对于长语音有 70% 的相对改进。

Nov, 2019

利用弹性权重整合改进计划采样用于神经机器翻译

通过系统实验，本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点，该计划加剧了当推理时间的前缀是正确的时的性能下降，即灾难性忘记。因此，提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明，该方法缓解了灾难性忘记问题，并显著优于最大似然估计和计划抽样对照组。

Sep, 2021

循环神经网络中的序列预测计划抽样

本文提出课程学习策略，用于训练循环神经网络，以尽量减小实际工作场景中训练和推理之间的差异，如在 MSCOCO 图片注释挑战赛中实测有效。

Jun, 2015

对话生成的双层计划抽样

本文提出了一种双层预训练采样模型，结合句子级信息和单词级质量，并利用平滑函数将两者的综合结果映射到适当的范围，基于映射值进行概率采样。在 DailyDialog 和 PersonaChat 数据集上的实验证明了我们提出的方法的有效性，明显缓解了暴露偏差问题，并超过了最先进的预训练采样方法。

Sep, 2023

多任务学习自适应调度

研究了不同的任务调度方法以在多个任务（语言）上同时训练神经机器翻译模型，包括现有的非自适应技术和自适应调度技术，并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对（少量数据的任务）中表现更好，同时最小化对高资源任务的负面影响。

Sep, 2019

翻转课堂：时间序列预测的有效教学

该研究提出了几种新的课程学习策略，包括随着训练规模增加和迭代规模概率课程，以提高序列到序列模型对混沌时间序列数据的预测准确性。通过在六个混沌时间序列数据集上的实验证明，这些新策略在 NRMSE 方面的性能表现要优于现有的教师强制和自由运行策略。

Oct, 2022