快速训练带有数据排序的 NMT 模型
本文使用 LSTM 循环神经网络,建立了一种基于单词对和对齐的新型神经排序模型,成功地解决了机器翻译中的重排序问题,并在 NIST OpenMT12 测试中实现了显著性能提升。
Dec, 2015
本文通过实证研究不同训练数据排序方法对神经机器翻译模型性能的影响,结果表明基于预训练模型的困惑度得分对训练数据进行预排序的方法表现最佳,在每轮训练中优于默认方法随机洗牌训练数据。
Sep, 2019
本文首次解决了神经机器翻译中输出长度的控制问题,并调查了两种解决方法,分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明,这两种方法都可以使网络生成更短的翻译,并获得解释性的语言技能。
Oct, 2019
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
本文研究了神经机器翻译中低资源语种的问题,通过在 IWSLT14 数据集上的实验发现,在优化超参数设置的情况下,Transformer 模型在低资源情况下的翻译质量可以提高 7.3 个 BLEU 分数。
Nov, 2020
本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数,并给出了一些实用建议,包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。
Apr, 2018
研究神经机器翻译系统为何会给空翻译很高的概率,发现标签平滑使正确长度的翻译信心降低,使空翻译更容易得分,并且 NMT 系统使用相同的高频 EoS 词来结束所有目标句子,产生隐式平滑,增加零长度翻译。
Dec, 2020
提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略,通过一个简单的评价指标选择参与注意力计算的令牌,从而改善长程语言建模的挑战,无需额外训练或添加参数,通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。
Oct, 2023