神经机器翻译模型的稀疏性
本研究对神经机器翻译(NMT)架构的超参数进行了首次大规模分析,并报告了标准 WMT 英德翻译任务上数百个实验结果和方差数,相当于超过 25 万 GPU 小时。通过这些实验,得出了新的见解和建议,建立了一个开源 NMT 框架,使研究人员可以轻松地实验新技术并重现最先进的结果。
Mar, 2017
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了 Bleu 分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
本文探讨神经网络机器翻译(NMT)在低资源条件下性能下降的原因,提出适应低资源环境时的注意事项和最佳实践,并在德语 - 英语和韩语 - 英语低资源翻译数据集上进行实验,发现经过优化的 NMT 系统可以在没有使用其他语言辅助数据的情况下,比以前报告的更少数据超越采用词组统计的基于规则的机器翻译(PBSMT),BLEU 指标超过 4 个点。
May, 2019
本文提出跨层参数共享方法,将单层循环堆叠的神经机器翻译模型与完整的六层模型的翻译质量进行比较,结果表明使用伪对称语料库进行反向翻译可以显著提高翻译质量。
Jul, 2018
通过对 Transformer 架构进行参数剪枝的优化策略,通过广泛实验和超参数选择,研究发现可以在不牺牲性能的情况下显著减少模型大小,并改善通用性能,从而在深度学习应用方面实现更可扩展和环境友好的方式。
Oct, 2023
提出了一种修剪方法,可在保持翻译质量的同时,移除多语言机器翻译中不相关的习惯用语,并检测出特定语种的专家,以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。
Dec, 2022
我们提出了一种基于可解释性的 NMT 训练方法,应用于无监督和有监督模型训练,用于翻译英语和三种不同资源的语言 —— 法语、古吉拉特语和哈萨克语。我们的结果表明,我们的方法在低资源条件下可以有希望,优于简单的训练基线;尽管改进只是微小的,但为进一步探索这种方法和参数以及其扩展到其他语言奠定了基础。
Nov, 2023
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024