快速训练带有数据排序的 NMT 模型

Aug, 2023

快速训练带有数据排序的 NMT 模型

Fast Training of NMT Model with Data Sorting

Daniela N. Rim, Kimera Richard, Heeyoul Choi

TL;DR提出了一种基于长度排序的算法，用于降低 Transformer 模型计算空标记的计算负担，以提高机器翻译的计算速度和性能。

Abstract

The transformer model has revolutionized Natural Language Processing tasks such as Neural machine translation, and many efforts have been made to study the Transformer architecture, which increased its efficiency

transformer model computational burden algorithm machine translation training process

发现论文，激发创造

神经机器翻译中小批量创建策略的实证研究

使用小批量进行神经机器翻译模型的训练，通过基于句子长度排序以及简单洗牌的方法来减少必须进行的信息填充，以提高处理速度和提高翻译的质量。

Jun, 2017

基于 LSTM 神经重排序特征的统计机器翻译

本文使用 LSTM 循环神经网络，建立了一种基于单词对和对齐的新型神经排序模型，成功地解决了机器翻译中的重排序问题，并在 NIST OpenMT12 测试中实现了显著性能提升。

Dec, 2015

神经机器翻译的数据排序模式：实证研究

本文通过实证研究不同训练数据排序方法对神经机器翻译模型性能的影响，结果表明基于预训练模型的困惑度得分对训练数据进行预排序的方法表现最佳，在每轮训练中优于默认方法随机洗牌训练数据。

Sep, 2019

神经机器翻译输出长度控制

本文首次解决了神经机器翻译中输出长度的控制问题，并调查了两种解决方法，分别是将输出与目标输入长度比例类相关联和在 Transformer 位置嵌入中加入长度信息。实验结果表明，这两种方法都可以使网络生成更短的翻译，并获得解释性的语言技能。

Oct, 2019

使用一致性正则化的半监督神经机器翻译技术 —— 面向低资源语言

本文介绍一种半监督的方法来解决低资源语言机器翻译的问题，通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量，将交叉熵损失和 KL 散度相结合，特别是通过伪目标句子实现无监督训练，实验证明该方法可以显著提高 NMT 基线性能

Apr, 2023

为低资源神经机器翻译优化 Transformer

本文研究了神经机器翻译中低资源语种的问题，通过在 IWSLT14 数据集上的实验发现，在优化超参数设置的情况下，Transformer 模型在低资源情况下的翻译质量可以提高 7.3 个 BLEU 分数。

Nov, 2020

Transformer 模型的训练技巧

本文介绍了使用 Tensor2Tensor 框架和 Transformer 序列到序列模型进行神经机器翻译的实验。研究比较了影响最终翻译质量、内存使用、训练稳定性和时间的一些关键参数，并给出了一些实用建议，包括扩展到多个 GPU 的方法、对批处理大小、学习率、预热步数、最大句子长度和检查点平均值的改进建议。希望本文的观察对其他研究人员有所帮助。

Apr, 2018

请语言模型清理您的噪声翻译数据

使用大型语言模型 (LLM) 清理噪声目标句子，创建了 C-MTNT 数据集，提供了更适合噪声评估的基准，并展示了 LLM 在此任务上的出色表现。

Oct, 2023

神经机器翻译为何更倾向于空输出

研究神经机器翻译系统为何会给空翻译很高的概率，发现标签平滑使正确长度的翻译信心降低，使空翻译更容易得分，并且 NMT 系统使用相同的高频 EoS 词来结束所有目标句子，产生隐式平滑，增加零长度翻译。

Dec, 2020

TRAMS：无需训练的长程语言模型记忆选择

提出了一种称为 TRAining-free Memory Selection (TRAMS) 的插拔式策略，通过一个简单的评价指标选择参与注意力计算的令牌，从而改善长程语言建模的挑战，无需额外训练或添加参数，通过在 word-level benchmark (WikiText-103) 和 character-level benchmark (enwik8) 上的测试取得了改进的结果。

Oct, 2023