指导式教师强制与先知强制在神经机器翻译中的应用

ACLJun, 2021

指导式教师强制与先知强制在神经机器翻译中的应用

Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation

Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang, Chenze Shao

TL;DR通过将 seer 解码器引入到编码器 - 解码器框架中进行训练，同时通过知识蒸馏强制传授知识，以解决现有的神经机器翻译模型在进行预测时往往只考虑过去信息，缺乏对未来信息的全局规划，实现在考虑未来信息的情况下，模型的翻译效果有了显著提升。

Abstract

Although teacher forcing has become the main training paradigm for neural machine translation, it usually makes predictions only conditioned on past information, and hence lacks global planning for the future. To address this problem, we introduce another decoder, called →

neural machine translation teacher forcing seer decoder knowledge distillation future information

发现论文，激发创造

自我知识蒸馏中的前后向查看：双向解码器用于神经机器翻译

介绍了一种使用自我知识蒸馏和双向解码的神经机器翻译模型，使用这种方法可以鼓励自回归 NMT 模型提前规划，实验表明该方法在多个机器翻译数据集上比强 Transformer 基线方法显著优秀。

Mar, 2022

具有局部约束的源目标自注意力

本论文提出了一种基于 transformer 模型的新型神经机器翻译架构，采用自注意力机制加局部约束对 attention 接受场进行改进，实现了在多个翻译基准数据集上的最新 BLEU 最优结果。

May, 2019

TeaForN：基于 N-gram 模型的教师强制算法

通过使用一种名为 TeaForN 的方法，我们可以在不改变现有标准老师强制模型框架的情况下，通过使用 N 个解码器在一个辅助时间轴上进行编码，从而降低暴露偏差和差分难度，从而提高序列生成模型的生成质量。

Oct, 2020

分层短语基序列到序列学习

本研究提出一种基于神经网络的译码器，结合层次短语作为训练的归纳偏差和显式约束，在维持标准序列到序列 (seq2seq) 模型的灵活性的同时。通过训练一个基于括号转录文法的判别式解析器，以层次化地对齐源和目标语短语，并使用一个神经 seq2seq 模型逐个地翻译这些对齐短语。该模型提出两种推理模式：一种只依赖于 seq2seq 模型进行序列级别的翻译，另一种则结合了解析器和 seq2seq 模型。研究结果表明，在小规模机器翻译基准测试中，该方法与对照方法相比表现良好。

Nov, 2022

基于短语的强制解码改进神经机器翻译

本研究提出了一种将传统 SMT 模型与神经机器翻译相结合的方法，从而提高翻译质量。该方法利用现有的基于短语的 SMT 模型计算基于短语的解码成本，并将其用于重新排列 n 个最佳 NMT 输出。研究表明，利用强制解码成本对 NMT 输出进行排序可以成功提高四种不同语言的翻译质量。

Nov, 2017

神经机器翻译的可训练贪婪解码

本文提出了一种可训练的解码算法，通过观察和操作神经机器翻译解码器的隐藏状态来最大化任意解码目标，使用确定性策略梯度对其进行培训，在四个语言对和两个解码目标上进行广泛评估，证明我们确实可以训练出一个可训练的贪婪解码器，从而以最小的计算开销生成更好的译文。

Feb, 2017

机器翻译的并行注意力强制

该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战，包括 scheduled attention forcing 来自动开启和关闭 attention forcing，以及 parallel attention forcing 使训练并行化。实验结果表明，这些方法可以提高基于 RNN 和 Transformer 的模型的性能。

Nov, 2022

利用语法感知编码器和解码器实现改进的神经机器翻译

本研究致力于改进基于编码器 - 解码器框架的神经机器翻译模型，通过显式地结合源侧语法树，在两种结构化表示（顺序和树）之间进行学习，提出具有树覆盖模型和双向树编码器的翻译模型，并证实优于其他基线模型。

Jul, 2017

Transformer 解码器的子层功能

本研究通过开发一种通用的探测任务来分析 Transformer-based 解码器中的每个模块如何传递信息，并针对三个主要翻译数据集进行了广泛实验。通过分析发现，Transformer 解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时，通过实验得出，每层解码器中的残差前馈模块可以被取消，而不影响性能，从而极大地降低了计算量和参数数量，提高了培训和推理速度

Oct, 2020

互信息和多样性解码改进神经机器翻译

本文介绍了一种基于相互信息最大化的神经机器翻译模型，该模型使用一种简单的重新排序方法和一种增加 N-best 列表多样性的解码算法，应用于 WMT 德英和法英任务中，该模型能够在标准 LSTM 和基于注意力的神经机器翻译体系结构上提供持续的性能提升。

Jan, 2016