指导式教师强制与先知强制在神经机器翻译中的应用
介绍了一种使用自我知识蒸馏和双向解码的神经机器翻译模型,使用这种方法可以鼓励自回归 NMT 模型提前规划,实验表明该方法在多个机器翻译数据集上比强 Transformer 基线方法显著优秀。
Mar, 2022
本论文提出了一种基于 transformer 模型的新型神经机器翻译架构,采用自注意力机制加局部约束对 attention 接受场进行改进,实现了在多个翻译基准数据集上的最新 BLEU 最优结果。
May, 2019
通过使用一种名为 TeaForN 的方法,我们可以在不改变现有标准老师强制模型框架的情况下,通过使用 N 个解码器在一个辅助时间轴上进行编码,从而降低暴露偏差和差分难度,从而提高序列生成模型的生成质量。
Oct, 2020
本研究提出一种基于神经网络的译码器,结合层次短语作为训练的归纳偏差和显式约束,在维持标准序列到序列 (seq2seq) 模型的灵活性的同时。通过训练一个基于括号转录文法的判别式解析器,以层次化地对齐源和目标语短语,并使用一个神经 seq2seq 模型逐个地翻译这些对齐短语。该模型提出两种推理模式:一种只依赖于 seq2seq 模型进行序列级别的翻译,另一种则结合了解析器和 seq2seq 模型。研究结果表明,在小规模机器翻译基准测试中,该方法与对照方法相比表现良好。
Nov, 2022
本研究提出了一种将传统 SMT 模型与神经机器翻译相结合的方法,从而提高翻译质量。该方法利用现有的基于短语的 SMT 模型计算基于短语的解码成本,并将其用于重新排列 n 个最佳 NMT 输出。研究表明,利用强制解码成本对 NMT 输出进行排序可以成功提高四种不同语言的翻译质量。
Nov, 2017
本文提出了一种可训练的解码算法,通过观察和操作神经机器翻译解码器的隐藏状态来最大化任意解码目标,使用确定性策略梯度对其进行培训,在四个语言对和两个解码目标上进行广泛评估,证明我们确实可以训练出一个可训练的贪婪解码器,从而以最小的计算开销生成更好的译文。
Feb, 2017
该研究引入了 attention forcing 的两种扩展来解决离散输出的任务中的挑战,包括 scheduled attention forcing 来自动开启和关闭 attention forcing,以及 parallel attention forcing 使训练并行化。实验结果表明,这些方法可以提高基于 RNN 和 Transformer 的模型的性能。
Nov, 2022
本研究致力于改进基于编码器 - 解码器框架的神经机器翻译模型,通过显式地结合源侧语法树,在两种结构化表示(顺序和树)之间进行学习,提出具有树覆盖模型和双向树编码器的翻译模型,并证实优于其他基线模型。
Jul, 2017
本研究通过开发一种通用的探测任务来分析 Transformer-based 解码器中的每个模块如何传递信息,并针对三个主要翻译数据集进行了广泛实验。通过分析发现,Transformer 解码器中每个模块对应的不同的源信息和目标语前缀的使用方式。同时,通过实验得出,每层解码器中的残差前馈模块可以被取消,而不影响性能,从而极大地降低了计算量和参数数量,提高了培训和推理速度
Oct, 2020
本文介绍了一种基于相互信息最大化的神经机器翻译模型,该模型使用一种简单的重新排序方法和一种增加 N-best 列表多样性的解码算法,应用于 WMT 德英和法英任务中,该模型能够在标准 LSTM 和基于注意力的神经机器翻译体系结构上提供持续的性能提升。
Jan, 2016