探究多语种机器翻译中的词汇共享在印度语言中的应用
本文研究了在多语言语言模型中应用转写对性能的影响,并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型,结果显示转写使得低资源语言的性能得到了提升,且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。
Jan, 2022
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下,我们验证了提出的方法,并且在大多数情况下得到了改进,在类似语言对(Gujarati-Hindi,Marathi-Hindi,Nepali-Hindi,Maithili - Hindi,Punjabi-Hindi 和 Urdu-Hindi)中,在一个案例中提高了约 10 BLEU 分数,而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。
May, 2023
本文展示了一种基于 transformer 网络结构并在其基础上做出改进的多语言模型,可用于跨越英语、印地语、孟加拉语、卡纳达语和泰米尔语的任意一对语言之间进行 Transliteration,同时在精度方面显著优于所有现有模型,在 Top-1 精度得分方面高达 80.7%,比最好的结果提高了 29.5%,并在语音准确性方面达到了 93.5%。
Aug, 2022
此研究探讨了子词切分在跨语言迁移中的作用,发现子词规范化提高了多语言建模的协同效应,而 BPE 在跨语言微调中更有效地促进了迁移,在子词建模方面的决策对于优化多语言建模的好处至关重要。
Mar, 2024
使用更强的机器翻译系统并减少原始文本训练和机器翻译文本推理之间的不匹配,翻译 - 测试可以比之前假定的效果更好,从而对跨语言分类的多语言模型的支配提出了质疑,并促使更多关注基于机器翻译的基准线。
May, 2023
用机器翻译和多语言模型来进行跨语言转移,尤其是对低资源语言进行翻译的方法比零样本跨语言转移方法要有效。通过在源语言训练数据上进行往返翻译并在目标语言测试实例上进行翻译的方法最有效。同时,通过将其他高资源语言的可靠翻译添加到训练数据中,还可以获得更多实证方面的收益。研究还提出了一种针对不受机器翻译系统支持的语言的有效的基于翻译的跨语言转移策略。最后,通过使用目标语言校验数据来进行模型选择,比使用源语言数据进行模型选择要更好。我们希望我们的研究结果能够促进在跨语言转移研究中采用更可靠的基于翻译的基准线方法。
Nov, 2023
使用音译的阿拉伯文本的双语阿拉伯 - 希伯来语言模型来确保两种语言在同一书写系统中得到表达,评估了在需要跨语言知识的机器翻译中,同时使用统一书写系统的语言模型的性能,结果表明我们的模型超过了保留阿拉伯文本在阿拉伯文字中的对照模型,证明了音译步骤的有效性。尽管我们的模型在训练数据集大小约为其他现有语言模型的 60%,但在机器翻译方向上提供了可比性的性能。
Feb, 2024
研究了现代神经语言模型的多语言训练中的字面表示空间和纯语法知识的共享,发现暴露我们的 LMs 与相关语言并不总是增加目标语言的语法知识,并且在语义转移的最佳条件下并不一定是语法转移的最佳条件。
Mar, 2020
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022