探究多语种机器翻译中的词汇共享在印度语言中的应用

May, 2023

探究多语种机器翻译中的词汇共享在印度语言中的应用

Investigating Lexical Sharing in Multilingual Machine Translation for Indian Languages

Sonal Sannigrahi, Rachel Bawden

TL;DR本文研究了多语言机器翻译中的词汇共享和转写等策略对翻译性能的影响，并探讨了数据采样和词汇大小之间的平衡。研究发现，转写并不能显著提高翻译性能，而原始脚本训练的多语言机器翻译模型对于不同脚本的语言具有较强的泛化能力。

Abstract

multilingual language models have shown impressive cross-lingual transfer ability across a diverse set of languages and tasks. To improve the cross-lingual ability of these models, some strategies include

multilingual language models lexical sharing machine translation transliteration cross-lingual transfer

发现论文，激发创造

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译

为了解决印地语交互下，由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题，本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法，结合 Byte Pair Embedding，可以更好地利用印地语相似性，并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下，我们验证了提出的方法，并且在大多数情况下得到了改进，在类似语言对（Gujarati-Hindi，Marathi-Hindi，Nepali-Hindi，Maithili - Hindi，Punjabi-Hindi 和 Urdu-Hindi）中，在一个案例中提高了约 10 BLEU 分数，而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。

May, 2023

MATra：一种印度文字跨语言注意力音译系统

本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型，可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration，同时在精度方面显著优于所有现有模型，在 Top-1 精度得分方面高达 80.7％，比最好的结果提高了 29.5％，并在语音准确性方面达到了 93.5％。

Aug, 2022

多语言翻译中的子词和跨语言转移的系统分析

此研究探讨了子词切分在跨语言迁移中的作用，发现子词规范化提高了多语言建模的协同效应，而 BPE 在跨语言微调中更有效地促进了迁移，在子词建模方面的决策对于优化多语言建模的好处至关重要。

Mar, 2024

跨语种分类中机器翻译的再次研究

使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配，翻译 - 测试可以比之前假定的效果更好，从而对跨语言分类的多语言模型的支配提出了质疑，并促使更多关注基于机器翻译的基准线。

May, 2023

是否翻译：对基于翻译的跨语言转移到低资源语言的系统调查

用机器翻译和多语言模型来进行跨语言转移，尤其是对低资源语言进行翻译的方法比零样本跨语言转移方法要有效。通过在源语言训练数据上进行往返翻译并在目标语言测试实例上进行翻译的方法最有效。同时，通过将其他高资源语言的可靠翻译添加到训练数据中，还可以获得更多实证方面的收益。研究还提出了一种针对不受机器翻译系统支持的语言的有效的基于翻译的跨语言转移策略。最后，通过使用目标语言校验数据来进行模型选择，比使用源语言数据进行模型选择要更好。我们希望我们的研究结果能够促进在跨语言转移研究中采用更可靠的基于翻译的基准线方法。

Nov, 2023

通过将标记映射到共享字符空间训练双语语言模型

使用音译的阿拉伯文本的双语阿拉伯 - 希伯来语言模型来确保两种语言在同一书写系统中得到表达，评估了在需要跨语言知识的机器翻译中，同时使用统一书写系统的语言模型的性能，结果表明我们的模型超过了保留阿拉伯文本在阿拉伯文字中的对照模型，证明了音译步骤的有效性。尽管我们的模型在训练数据集大小约为其他现有语言模型的 60％，但在机器翻译方向上提供了可比性的性能。

Feb, 2024

多语言递归神经网络中的跨语言句法转移理解

研究了现代神经语言模型的多语言训练中的字面表示空间和纯语法知识的共享，发现暴露我们的 LMs 与相关语言并不总是增加目标语言的语法知识，并且在语义转移的最佳条件下并不一定是语法转移的最佳条件。

Mar, 2020

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022

相关语言间的跨语言转移：将低资源马耳他语视为多语言代码交换

使用词源学的条件转译对马耳他语进行预处理可以提高多语言语言模型的跨语言迁移能力，在四个下游任务中表现最佳。

Jan, 2024