消除印度机器翻译任务流行数据集中的误译方法

Jan, 2024

消除印度机器翻译任务流行数据集中的误译方法

An approach for mistranslation removal from popular dataset for Indic MT Task

Sudhansu Bala Das, Leo Raphael Rodrigues, Tapas Kumar Mishra, Bidyut Kr. Patra

TL;DR使用最大的公开可访问的印度语言平行数据集 Samanantar 进行实验，在二种印度语言 Hindi 和 Odia 上构建一个基准神经机器翻译系统，并通过消除数据集中的错误翻译来提高翻译质量，进而发现尽管 ILs-English 和 English-ILs 系统使用相同的数据集进行训练，但 ILs-English 在所有评估指标上的表现更好。

Abstract

The conversion of content from one language to another utilizing a computer system is known as machine translation (MT). Various techniques have come up to ensure effective translations that retain the contextual and lexical interpretation of the source language. End-to-end Neural

machine translation neural machine translation parallel dataset mistranslation evaluation metrics

发现论文，激发创造

改进印度语系多语言神经机器翻译系统

本文提出了一个 MNMT 系统，通过各种增强策略改进它的性能，研究了方言、语言脚本等因素在提高低资源语言翻译表现中的作用，并展示了回译和领域适应对提高源语言和目标语言翻译质量的优势。通过这些方法，我们的模型在评价指标（即一组 IL 的 BLEU（双语评估协议）得分）方面比基线模型更高效。

Sep, 2022

印度语言的统计机器翻译

本文介绍了使用 SMT 技术和 MOSES 工具包开发双语 SMT 模型，实现英语和十五种低资源印度语言之间的翻译，包括使用 BLEU，METEOR 和 RIBES 等标准指标对翻译质量进行评估。

Jan, 2023

印度语到印度语的多语言神经机器翻译系统

本文构建了 Indic-to-Indic 机器翻译模型，并且考察了语言相关性、借用相关语言以及不同语系对模型效率的影响，结果发现，使用相关语言对 WI 语系是有益的，而对 EI 语系可能是有害的，对 DR 语系影响不明确，但对 EN-IL 模型是有用的，并且转译还有助于提高模型的性能。

Jun, 2023

神经机器翻译中的回译研究

本研究探讨了使用回译数据对 NMT 模型性能的影响，通过逐步增加回译数据来训练一系列以德语为源语言，以英语为目标语言的 NMT 系统，并分析了相应的翻译绩效。

Apr, 2018

通过领域自适应技术利用语言相关性进行机器翻译

本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数，尤其是对于相关语言，该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据，以提高机器翻译的翻译质量。此外，我们采用了其他域自适应技术，如多域、微调和迭代回译方法，以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果，我们的方法在多域方法上增加了约 2 个 BLEU 点，在微调 NMT 方面提高了约 3 个 BLEU 点，在迭代回译上提高了约 2 个 BLEU 点。

Mar, 2023

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

基于 Transformer 的印地语到英语神经机器翻译

我们使用深度学习技术开发了一种神经机器翻译系统，通过训练 Transformer 模型将印度语 Hindi 翻译成英语，通过实施回译增强训练数据并尝试使用 Byte Pair Encoding (BPE) 进行词汇划分，我们在 10 个不同的配置中训练 Transformer，在 IIT Bombay 英印语语料库的测试集中取得了 24.53 的最新 BLEU 分数。

Sep, 2023

基于注意力机制的印度语言神经机器翻译系统

本文提出了神经机器翻译系统，可以有效翻译印度语言，如印地语和古吉拉特语，其表现优于 Google 翻译，基于 BLEU、困惑度和 TER 矩阵的自动评估表明了其性能优势。

Feb, 2020

IndicMT Eval：用于评估印度语机器翻译度量的数据集

本文旨在创建一个 MQM 数据集，以系统地评估 7 个机器翻译系统中 5 种印度语言的翻译质量，并探讨自动化评估指标和人工评分之间的相关性。结果表明预先训练的指标 COMET 与人工评分相关性最高，但这些指标并未恰当地捕捉印度语言中的流畅性错误，因此需要开发注重印度语言的度量指标。

Dec, 2022

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019