TeaForN:基于 N-gram 模型的教师强制算法
该研究提出一种基于可微序列级训练目标的方法,使用概率 n-gram 匹配来避免强化学习框架,该方法在训练中执行贪心搜索并使用预测的单词作为上下文,以缓解曝光偏差问题,实验结果表明,该方法在 NIST 中英文翻译任务中显着优于基于强化学习的算法,并在强基线系统上平均实现了 1.5 个 BLEU 点的改进。
Sep, 2018
该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战,包括 scheduled attention forcing 来自动开启和关闭 attention forcing,以及 parallel attention forcing 使训练并行化。实验结果表明,这些方法可以提高基于 RNN 和 Transformer 的模型的性能。
Nov, 2022
通过将 seer 解码器引入到编码器 - 解码器框架中进行训练,同时通过知识蒸馏强制传授知识,以解决现有的神经机器翻译模型在进行预测时往往只考虑过去信息,缺乏对未来信息的全局规划,实现在考虑未来信息的情况下,模型的翻译效果有了显著提升。
Jun, 2021
本文介绍了教师强制算法和教授强制算法,采用对抗性域适应,使得递归网络在训练和多阶段抽样时的动态相同,并应用于语言模型、原始波形的声音合成、手写生成和图像生成。实验证明,本文方法在字符级 Penn Treebank 和连续 MNIST 的测试似然度上有所提升,并且样本的质量在高时间步长的采样时有所改善。
Oct, 2016
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022
本研究针对神经机器翻译存在的训练误差积累和过度校正问题,提出了一种从训练模型的预测序列中采样上下文词并使用句子级优化方法选择预测序列的训练策略,并在中英互译和 WMT'14 英德互译数据集上得到了显著提高。
Jun, 2019
提出了一种新的神经机器翻译模型,利用目标序列上下文的结构预测来引导翻译,从而使之摆脱顺序约束,实现了重复减少和跨长度翻译的鲁棒性,相较于当前最优方法有着更为优越的效果表现。
Jun, 2018
论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法,从流畅性和忠实度的角度引导模型生成具有连接性的短语,实验结果表明,该方法可以显著提高翻译质量。
Nov, 2019
该论文提出了一种新的方法,通过利用隐藏状态和单词对齐的提示,帮助训练非自回归翻译模型,实现了比以前的非自回归翻译模型更显着的改进,甚至可以与强大的基于 LSTM 的自回归翻译模型基线相媲美但在推理速度上快一个数量级。
Sep, 2019
利用渐进式下降算法在 NTP 训练中获得最佳性能解决方案,研究了梯度下降方法在 NTP 训练中的偏向性和最优解相关性,并提出了进一步研究的方向,以更好地理解使用 NTP 进行训练的模型的优化、泛化和鲁棒性原则。
Feb, 2024