RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

Jan, 2024

RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models models via Romanization

Jaavid Aktar Husain, Raj Dabre, Aswanth Kumar, Ratish Puduppully, Anoop Kunchukuttan

TL;DR本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言（尤其是使用非拉丁文字的语言）的挑战，并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力，既提高了推理效率，又在有限的预训练情况下取得了竞争性的性能，同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力，未来的工作将致力于将这种方法扩展到更多的语言和任务。

Abstract

This study addresses the challenge of extending large language models (LLMs) to non-English languages, specifically those using non-latin scripts. We propose an innovative approach that utilizes the romanized for

large language models non-latin scripts romanized text hindi multi-script prompting

发现论文，激发创造

基于转写的多语言大规模语言模型适应

本文研究了利用大量转写大幅提高多语种预训练语言模型在少资源语言中的性能，并且发现使用 UROMAN 基于的转写方法可以在许多语言中提供强大的性能，特别是在对未见到的语言脚本和数据量有限的情况下。

Apr, 2023

神经机器翻译中用于脚本间模型转移的罗马化

研究发现，在跨语言转移方面，罗马化输入法虽存在一定的信息损失，但可以在相关语言间改善字母表不同的情况下的翻译质量。在目标端实现罗马输入法并配以简单的反罗马化模型能提高翻译的成功率。

Sep, 2020

加速单语文本生成的多语言语言模型的简单框架

最近大型语言模型的进展不仅在英语中，还在非英语语言中完成了复杂语言任务的执行。然而，大多数语言模型的分词器（如 Llama）在训练时采用的是以英语为中心的语料库，往往会在非英语语言中过度分词。针对这个问题，我们的研究引入了一种新颖的框架，旨在加快这些语言的文本生成。此框架预测的语言单元较传统的多语言分词器更大，并且专门针对目标语言进行了定制，从而减少了所需的解码步骤。我们的实证结果表明，与标准解码相比，所提出的框架将生成速度提高了 1.9 倍，同时在单语任务上保持了预训练多语言模型的性能。

Jan, 2024

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别

我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别（LID）数据集和模型，并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。

May, 2023

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

评估涉及英语和印度语的大型语言模型的翻译能力

通过使用机器翻译作为涉及英语和 22 种印度语言的任务，我们探索了大型语言模型的多语言能力，研究了原始模型的翻译能力和上下文学习能力，通过参数高效的微调方法和完全微调，我们确定了最佳性能的大型语言模型。结果表明，大型语言模型在包括目前在 LLMs 中代表较少的语言的机器翻译能力方面取得了显著的进展。

Nov, 2023

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

利用语言相关性进行低网络资源语言模型适应：印度语言研究

本文针对印度语言中不足文本资源的问题，提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法，通过音译和数据增强等技术，将限制资源语言文本转化到具备足够语料的相关语言中间站，从而提高多语言模型的适用性。

Jun, 2021

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022