基于 Transformer 的印地语到英语神经机器翻译

Sep, 2023

基于 Transformer 的印地语到英语神经机器翻译

Hindi to English: Transformer-Based Neural Machine Translation

Kavit Gangar, Hardik Ruparel, Shreyas Lele

TL;DR我们使用深度学习技术开发了一种神经机器翻译系统，通过训练 Transformer 模型将印度语 Hindi 翻译成英语，通过实施回译增强训练数据并尝试使用 Byte Pair Encoding (BPE) 进行词汇划分，我们在 10 个不同的配置中训练 Transformer，在 IIT Bombay 英印语语料库的测试集中取得了 24.53 的最新 BLEU 分数。

Abstract

machine translation (MT) is one of the most prominent tasks in Natural Language Processing (NLP) which involves the automatic conversion of texts from one natural language to another while preserving its meaning and fluency. Although the research in →

machine translation natural language processing neural machine translation indian language hindi byte pair encoding (bpe)

发现论文，激发创造

谷歌的神经机器翻译系统：弥合人类翻译和机器翻译之间的差距

Google 发布的 GNMT 神经机器翻译系统采用 LSTM 深度学习网络，使用 attention 机制和残差连接，借助词元素 (wordpieces) 将单词划分为子单元，提高了稀有单词处理能力与整体系统精度。

Sep, 2016

改进印度语系多语言神经机器翻译系统

本文提出了一个 MNMT 系统，通过各种增强策略改进它的性能，研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用，并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法，我们的模型在评价指标（即一组 IL 的 BLEU（双语评估协议）得分）方面比基线模型更高效。

Sep, 2022

神经机器翻译：综述与调查

本文追溯了现代神经机器翻译体系结构的起源，重点探讨了单个神经网络在翻译中的应用，其中涉及到 word 和 sentence embedding 以及编码器 - 解码器网络家族的早期示例，并总结了该领域的最新趋势。

Dec, 2019

基于注意力机制的印度语言神经机器翻译系统

本文提出了神经机器翻译系统，可以有效翻译印度语言，如印地语和古吉拉特语，其表现优于 Google 翻译，基于 BLEU、困惑度和 TER 矩阵的自动评估表明了其性能优势。

Feb, 2020

变形金刚时代小说的机器翻译

本研究基于神经机器翻译技术中的 Transformer 模型，对小说文学领域的英文进行自动翻译，通过与其他三种不同模型进行自动评估和手动评估，结果表明使用 domain-specific Transformer-based 系统在表现上要优于其他三种模型。

Nov, 2020

联合学习对齐和翻译的神经机器翻译

本文旨在解决传统编码器 - 解码器架构中的长度固定向量制约所面临的性能瓶颈，并提出一种基于（软）搜索方式的新方法，在英法翻译任务中获得了与基于短语的模型相当的翻译性能，且（软）对齐结果与人类直觉相符。

Sep, 2014

低资源语言的神经机器翻译

该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进

Apr, 2023

神经机器翻译的主动学习

本文使用 Joey NMT 工具包中的 Active Learning 技术，通过两种基于模型的获取函数 (BM, FTM, ALLCM, 和 ALMSM)，研究了英语到印地语的神经机器翻译。本文的结果表明，Active Learning 技术能够使模型更早地达到收敛并提高整个翻译系统的质量，其中 ALLCM 和 ALMSM 两种模型取得了最好的 BLEU 分数。

Dec, 2022

基于相关性引导的神经机器翻译

我们提出了一种基于可解释性的 NMT 训练方法，应用于无监督和有监督模型训练，用于翻译英语和三种不同资源的语言 —— 法语、古吉拉特语和哈萨克语。我们的结果表明，我们的方法在低资源条件下可以有希望，优于简单的训练基线；尽管改进只是微小的，但为进一步探索这种方法和参数以及其扩展到其他语言奠定了基础。

Nov, 2023

英爱转换器式 NMT 的人工评估

该研究评估了超参数设置对基于 Transformer 的神经机器翻译在英语 - 爱尔兰语低资源对中的质量的影响。研究中使用了基于 Byte Pair Encoding (BPE) 和 unigram 方法的 SentencePiece 模型。通过修改层数、评估注意力机制中最佳头数、使用不同的正则化技术等变体，发现使用 16k BPE 子词模型优化的 Transformer 模型表现最佳，相较于基线递归神经网络（RNN）模型，BLEU 分数提高了 7.8 个点，与 Google 翻译相比，该翻译引擎实现了显著提升。此外，还通过定量细粒度手动评估，比较了机器翻译系统的表现。使用多维质量度量中的错误分类法（MQM error taxonomy），探讨了基于 RNN 模型和 Transformer 模型生成的错误类型的人类评估。结果表明，表现最佳的 Transformer 系统在准确性和流畅性错误方面与基于 RNN 的模型相比均有显著降低。

Mar, 2024