本文研究了利用大量转写大幅提高多语种预训练语言模型在少资源语言中的性能,并且发现使用 UROMAN 基于的转写方法可以在许多语言中提供强大的性能,特别是在对未见到的语言脚本和数据量有限的情况下。
Apr, 2023
本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言(尤其是使用非拉丁文字的语言)的挑战,并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力,既提高了推理效率,又在有限的预训练情况下取得了竞争性的性能,同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力,未来的工作将致力于将这种方法扩展到更多的语言和任务。
Jan, 2024
本文研究了在多语言语言模型中应用转写对性能的影响,并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型,结果显示转写使得低资源语言的性能得到了提升,且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。
Jan, 2022
本研究提出了一种简单的迁移学习方法,通过训练 “父模型” 并在低资源语言对上进行训练,取代了原有的训练语料库,成功地提高了针对不同语言对的机器翻译性能。
Sep, 2018
本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
研究发现,通过使用转写技术,可以提高非拉丁脚本的低资源语言中解码器优化的大型语言模型(LLMs)在顺序标注任务中的性能。
Jul, 2024
使用词源学的条件转译对马耳他语进行预处理可以提高多语言语言模型的跨语言迁移能力,在四个下游任务中表现最佳。
该研究提出了一种转移学习的方法,通过先训练一个高资源语言对以及将一些已学习的参数转移至低资源语言对,来初始化和约束训练,显著提高了 Bleu 分数,并将低资源机器翻译性能接近于强的基于语法的机器翻译系统,超过了其一个语言对的性能,并且用于重新评分可以进一步提高低资源机器翻译的表现。
Apr, 2016
通过考虑语言接触的重要性,本研究研究了源语言对跨语言转移的影响,并提出了一种整合罗马化转录的方法来增强跨语言表示和有效的零样本跨语言转移,进而鼓励对接触语言的深入研究。
Apr, 2024
本文提出一种方案,使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移,以改进跨语言学习的性能,实验结果表明,我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能,进一步的结果证明了 meta-learning 的能力。
Jul, 2022