TeaForN：基于 N-gram 模型的教师强制算法

EMNLPOct, 2020

TeaForN：基于 N-gram 模型的教师强制算法

TeaForN: Teacher-Forcing with N-grams

PDF

Sebastian Goodman, Nan Ding, Radu Soricut

TL;DR通过使用一种名为 TeaForN 的方法，我们可以在不改变现有标准老师强制模型框架的情况下，通过使用 N 个解码器在一个辅助时间轴上进行编码，从而降低暴露偏差和差分难度，从而提高序列生成模型的生成质量。

Abstract

sequence generation models trained with teacher-forcing suffer from issues related to exposure bias and lack of →

sequence generation models teacher-forcing exposure bias differentiability n-grams

发现论文，激发创造

基于概率 N-gram 匹配的贪婪搜索神经机器翻译

该研究提出一种基于可微序列级训练目标的方法，使用概率 n-gram 匹配来避免强化学习框架，该方法在训练中执行贪心搜索并使用预测的单词作为上下文，以缓解曝光偏差问题，实验结果表明，该方法在 NIST 中英文翻译任务中显着优于基于强化学习的算法，并在强基线系统上平均实现了 1.5 个 BLEU 点的改进。

Sep, 2018

机器翻译的并行注意力强制

该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战，包括 scheduled attention forcing 来自动开启和关闭 attention forcing，以及 parallel attention forcing 使训练并行化。实验结果表明，这些方法可以提高基于 RNN 和 Transformer 的模型的性能。

Nov, 2022

指导式教师强制与先知强制在神经机器翻译中的应用

通过将 seer 解码器引入到编码器 - 解码器框架中进行训练，同时通过知识蒸馏强制传授知识，以解决现有的神经机器翻译模型在进行预测时往往只考虑过去信息，缺乏对未来信息的全局规划，实现在考虑未来信息的情况下，模型的翻译效果有了显著提升。

Jun, 2021

教授强制：一种用于训练循环网络的新算法

本文介绍了教师强制算法和教授强制算法，采用对抗性域适应，使得递归网络在训练和多阶段抽样时的动态相同，并应用于语言模型、原始波形的声音合成、手写生成和图像生成。实验证明，本文方法在字符级 Penn Treebank 和连续 MNIST 的测试似然度上有所提升，并且样本的质量在高时间步长的采样时有所改善。

Oct, 2016

N-Grammer: 使用潜在 n-gram 扩充 Transformer

本研究提出了一种新的改进 Transformer 模型的方法，使用了文本序列中的离散潜在表示构造 n-gram，并应用于语言建模和文本分类中，经实验证明性能优于传统的 Transformer 模型和 Primer，该模型已在 Jax 中开源以便复现。

Jul, 2022

神经机器翻译的训练和推理之间的缩小差距

本研究针对神经机器翻译存在的训练误差积累和过度校正问题，提出了一种从训练模型的预测序列中采样上下文词并使用句子级优化方法选择预测序列的训练策略，并在中英互译和 WMT'14 英德互译数据集上得到了显著提高。

Jun, 2019

基于反卷积的全局解码神经机器翻译

提出了一种新的神经机器翻译模型，利用目标序列上下文的结构预测来引导翻译，从而使之摆脱顺序约束，实现了重复减少和跨长度翻译的鲁棒性，相较于当前最优方法有着更为优越的效果表现。

Jun, 2018

多元神经机器翻译的流畅性和忠实度建模

论文提出了一种引入评估模块来指导预测结果分布的神经机器翻译方法，从流畅性和忠实度的角度引导模型生成具有连接性的短语，实验结果表明，该方法可以显著提高翻译质量。

Nov, 2019

非自回归机器翻译的基于提示的训练

该论文提出了一种新的方法，通过利用隐藏状态和单词对齐的提示，帮助训练非自回归翻译模型，实现了比以前的非自回归翻译模型更显着的改进，甚至可以与强大的基于 LSTM 的自回归翻译模型基线相媲美但在推理速度上快一个数量级。

Sep, 2019

下一标记预测的隐性偏见

利用渐进式下降算法在 NTP 训练中获得最佳性能解决方案，研究了梯度下降方法在 NTP 训练中的偏向性和最优解相关性，并提出了进一步研究的方向，以更好地理解使用 NTP 进行训练的模型的优化、泛化和鲁棒性原则。

Feb, 2024