Transformer 的计划采样
本文提出了基于置信度的定时采样策略,针对神经机器翻译中定时采样策略无法根据实时模型表现进行调整的问题,通过使用模型预测的置信度来量化实时模型表现,并设计了细粒度的采样策略。实验结果表明,该策略在 Transformer 模型上显著优于 Vanilla 定时采样,可以提高翻译质量和收敛速度。
Jul, 2021
本研究提出基于解码步骤的计划采样方法,可以更真实地模拟训练过程中的推理场景,从而更好地弥合训练和推理之间的差距。实验证明,这种方法在 WMT 任务上显著优于变形金刚基线和普通计划采样,并且在两个流行基准测试中也具有很好的泛化性能。
Aug, 2021
本文介绍了一种简单的方法,通过时间并行化可以减轻固定顺序随机替换预测值的 “计划采样”,并在图像生成、文本摘要、对话生成和翻译等任务中实现与传统教师强制训练相当或更好的性能。
Jun, 2019
本文介绍了一种基于 Dynamic Scheduled Sampling with Imitation Loss (DySI) 的神经文本生成模型,该模型通过引入模仿损失和动态调度表,解决了常见的曝光偏差问题,在标准机器翻译基准测试数据集上获得了显著的性能提升,并提高了其他文本生成模型的鲁棒性。
Jan, 2023
本文中,我们提出了一种采用 parallel scheduling sampling (PSS) 和 relative positional embedding (RPE) 来帮助 Transformer 泛化到看不见的数据的方法。我们的方法在 10,000 小时普通话自动语音识别任务上,对于短语音有 7% 的相对改进和对于长语音有 70% 的相对改进。
Nov, 2019
通过系统实验,本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点,该计划加剧了当推理时间的前缀是正确的时的性能下降,即灾难性忘记。因此,提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实验表明,该方法缓解了灾难性忘记问题,并显著优于最大似然估计和计划抽样对照组。
Sep, 2021
本文提出了一种双层预训练采样模型,结合句子级信息和单词级质量,并利用平滑函数将两者的综合结果映射到适当的范围,基于映射值进行概率采样。在 DailyDialog 和 PersonaChat 数据集上的实验证明了我们提出的方法的有效性,明显缓解了暴露偏差问题,并超过了最先进的预训练采样方法。
Sep, 2023
研究了不同的任务调度方法以在多个任务(语言)上同时训练神经机器翻译模型,包括现有的非自适应技术和自适应调度技术,并考虑了隐式调度技术。这些方法使得多语言模型在低资源语言对(少量数据的任务)中表现更好,同时最小化对高资源任务的负面影响。
Sep, 2019
该研究提出了几种新的课程学习策略,包括随着训练规模增加和迭代规模概率课程,以提高序列到序列模型对混沌时间序列数据的预测准确性。通过在六个混沌时间序列数据集上的实验证明,这些新策略在 NRMSE 方面的性能表现要优于现有的教师强制和自由运行策略。
Oct, 2022