对话生成的双层计划抽样

Sep, 2023

Bilevel Scheduled Sampling for Dialogue Generation

Jiawen Liu, Kan Li

TL;DR本文提出了一种双层预训练采样模型，结合句子级信息和单词级质量，并利用平滑函数将两者的综合结果映射到适当的范围，基于映射值进行概率采样。在 DailyDialog 和 PersonaChat 数据集上的实验证明了我们提出的方法的有效性，明显缓解了暴露偏差问题，并超过了最先进的预训练采样方法。

Abstract

exposure bias poses a common challenge in numerous natural language processing tasks, particularly in the dialog generation. In response to this issue, researchers have devised various techniques, among which sch

exposure bias scheduled sampling dialog generation sentence-level information probabilistic sampling

发现论文，激发创造

神经机器翻译置信度感知的计划采样

本文提出了基于置信度的定时采样策略，针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题，通过使用模型预测的置信度来量化实时模型表现，并设计了细粒度的采样策略。实验结果表明，该策略在 Transformer 模型上显著优于 Vanilla 定时采样，可以提高翻译质量和收敛速度。

Jul, 2021

神经机器翻译中带有灵活参照词序的可微分采样

该研究论文介绍了一种新的可微分采样算法，该算法通过基于模型预测的软对齐来优化参考与采样输出之间的对齐概率，从而提高机器翻译的 BLEU 值，并在 IWSLT 翻译任务中取得较大的改进。

Apr, 2019

Transformer 的计划采样

该研究提出了一种双重解码策略使得计划采样技术可以应用于 Transformer 模型，以解决序列生成中出现的曝光偏置问题，该技术可大幅提高模型的性能，并表明其具有进一步探索的潜力。

Jun, 2019

并行计划采样

本文介绍了一种简单的方法，通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”，并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。

Jun, 2019

神经文本生成中的动态计划采样与模仿损失

本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型，该模型通过引入模仿损失和动态调度表，解决了常见的曝光偏差问题，在标准机器翻译基准测试数据集上获得了显著的性能提升，并提高了其他文本生成模型的鲁棒性。

Jan, 2023

基于解码步骤的神经机器翻译定时采样

本研究提出基于解码步骤的计划采样方法，可以更真实地模拟训练过程中的推理场景，从而更好地弥合训练和推理之间的差距。实验证明，这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样，并且在两个流行基准测试中也具有很好的泛化性能。

Aug, 2021

利用弹性权重整合改进计划采样用于神经机器翻译

通过系统实验，本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点，该计划加剧了当推理时间的前缀是正确的时的性能下降，即灾难性忘记。因此，提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明，该方法缓解了灾难性忘记问题，并显著优于最大似然估计和计划抽样对照组。

Sep, 2021

多任务学习自适应调度

研究了不同的任务调度方法以在多个任务（语言）上同时训练神经机器翻译模型，包括现有的非自适应技术和自适应调度技术，并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对（少量数据的任务）中表现更好，同时最小化对高资源任务的负面影响。

Sep, 2019

UBARv2：针对任务导向对话的减轻暴露偏差

本研究提出一种解决任务型对话系统中曝光偏差问题的方法，通过采用会话级别的采样和基于 dropout 的一致性正则化来提高模型的鲁棒性和性能，并在 MultiWOZ 基准测试上取得了最先进的性能。

Sep, 2022

对话训练和推断之间的自适应桥梁

研究了在生成对话回复时曝光偏差问题及其可能导致的常见回复生成问题，提出了一种自适应开关机制，并使用余弦相似度等度量方法在中文和英文数据集上进行了实验，取得显著改进。

Oct, 2021