本文提出了基于置信度的定时采样策略,针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题,通过使用模型预测的置信度来量化实时模型表现,并设计了细粒度的采样策略。实验结果表明,该策略在 Transformer 模型上显著优于 Vanilla 定时采样,可以提高翻译质量和收敛速度。
Jul, 2021
该研究论文介绍了一种新的可微分采样算法,该算法通过基于模型预测的软对齐来优化参考与采样输出之间的对齐概率,从而提高机器翻译的 BLEU 值,并在 IWSLT 翻译任务中取得较大的改进。
Apr, 2019
该研究提出了一种双重解码策略使得计划采样技术可以应用于 Transformer 模型,以解决序列生成中出现的曝光偏置问题,该技术可大幅提高模型的性能,并表明其具有进一步探索的潜力。
Jun, 2019
本文介绍了一种简单的方法,通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”,并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。
本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型,该模型通过引入模仿损失和动态调度表,解决了常见的曝光偏差问题,在标准机器翻译基准测试数据集上获得了显著的性能提升,并提高了其他文本生成模型的鲁棒性。
Jan, 2023
本研究提出基于解码步骤的计划采样方法,可以更真实地模拟训练过程中的推理场景,从而更好地弥合训练和推理之间的差距。实验证明,这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样,并且在两个流行基准测试中也具有很好的泛化性能。
Aug, 2021
通过系统实验,本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点,该计划加剧了当推理时间的前缀是正确的时的性能下降,即灾难性忘记。因此,提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明,该方法缓解了灾难性忘记问题,并显著优于最大似然估计和计划抽样对照组。
Sep, 2021
研究了不同的任务调度方法以在多个任务(语言)上同时训练神经机器翻译模型,包括现有的非自适应技术和自适应调度技术,并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对(少量数据的任务)中表现更好,同时最小化对高资源任务的负面影响。
Sep, 2019
本研究提出一种解决任务型对话系统中曝光偏差问题的方法,通过采用会话级别的采样和基于 dropout 的一致性正则化来提高模型的鲁棒性和性能, 并在 MultiWOZ 基准测试上取得了最先进的性能。
Sep, 2022
研究了在生成对话回复时曝光偏差问题及其可能导致的常见回复生成问题,提出了一种自适应开关机制,并使用余弦相似度等度量方法在中文和英文数据集上进行了实验,取得显著改进。
Oct, 2021