神经机器翻译中用于脚本间模型转移的罗马化

EMNLPSep, 2020

神经机器翻译中用于脚本间模型转移的罗马化

On Romanization for Model Transfer Between Scripts in Neural Machine Translation

Chantal Amrhein, Rico Sennrich

TL;DR研究发现，在跨语言转移方面，罗马化输入法虽存在一定的信息损失，但可以在相关语言间改善字母表不同的情况下的翻译质量。在目标端实现罗马输入法并配以简单的反罗马化模型能提高翻译的成功率。

Abstract

transfer learning is a popular strategy to improve the quality of low-resource machine translation. For an optimal transfer of the embedding layer, the child and parent model should share a substantial part of th

transfer learning machine translation romanization vocabulary transfer information loss

发现论文，激发创造

基于转写的多语言大规模语言模型适应

本文研究了利用大量转写大幅提高多语种预训练语言模型在少资源语言中的性能，并且发现使用 UROMAN 基于的转写方法可以在许多语言中提供强大的性能，特别是在对未见到的语言脚本和数据量有限的情况下。

Apr, 2023

RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言（尤其是使用非拉丁文字的语言）的挑战，并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力，既提高了推理效率，又在有限的预训练情况下取得了竞争性的性能，同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力，未来的工作将致力于将这种方法扩展到更多的语言和任务。

Jan, 2024

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

低资源神经机器翻译的简单迁移学习

本研究提出了一种简单的迁移学习方法，通过训练 “父模型” 并在低资源语言对上进行训练，取代了原有的训练语料库，成功地提高了针对不同语言对的机器翻译性能。

Sep, 2018

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

探索音译在上下文学习中的作用，针对非拉丁文字书写的低资源语言

研究发现，通过使用转写技术，可以提高非拉丁脚本的低资源语言中解码器优化的大型语言模型（LLMs）在顺序标注任务中的性能。

Jul, 2024

相关语言间的跨语言转移：将低资源马耳他语视为多语言代码交换

使用词源学的条件转译对马耳他语进行预处理可以提高多语言语言模型的跨语言迁移能力，在四个下游任务中表现最佳。

Jan, 2024

面向低资源神经机器翻译的迁移学习

该研究提出了一种转移学习的方法，通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对，来初始化和约束训练，显著提高了 Bleu 分数，并将低资源机器翻译性能接近于强的基于语法的机器翻译系统，超过了其一个语言对的性能，并且用于重新评分可以进一步提高低资源机器翻译的表现。

Apr, 2016

CORI: 汉字罗马化整合的 CJKV 基准 -- 跨语言文字脚本转换的一步

通过考虑语言接触的重要性，本研究研究了源语言对跨语言转移的影响，并提出了一种整合罗马化转录的方法来增强跨语言表示和有效的零样本跨语言转移，进而鼓励对接触语言的深入研究。

Apr, 2024

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022