基于转写的多语言大规模语言模型适应

Apr, 2023

基于转写的多语言大规模语言模型适应

Romanization-based Large-scale Adaptation of Multilingual Language Models

Sukannya Purkayastha, Sebastian Ruder, Jonas Pfeiffer, Iryna Gurevych, Ivan Vulić

TL;DR本文研究了利用大量转写大幅提高多语种预训练语言模型在少资源语言中的性能，并且发现使用 UROMAN 基于的转写方法可以在许多语言中提供强大的性能，特别是在对未见到的语言脚本和数据量有限的情况下。

Abstract

Large multilingual pretrained language models (mPLMs) have become the de facto state of the art for cross-lingual transfer in NLP. However, their large-scale deployment to many languages, besides pretraining data

multilingual pretrained language models cross-lingual transfer low-resource languages transliteration uroman

发现论文，激发创造

RomanSetu: 大型语言模型通过罗马化高效解锁多语言能力

本研究通过使用罗马化文本作为 LLMs 的界面来解决将大型语言模型扩展到非英语语言（尤其是使用非拉丁文字的语言）的挑战，并通过印地语到英语翻译和情感分析任务展示了罗马化文本的潜力，既提高了推理效率，又在有限的预训练情况下取得了竞争性的性能，同时将罗马化文本与原生文本结合的多脚本提示方法也显示出了提高任务性能的潜力。这些发现表明罗马化在弥合 LLM 应用中的语言障碍方面具有潜力，未来的工作将致力于将这种方法扩展到更多的语言和任务。

Jan, 2024

神经机器翻译中用于脚本间模型转移的罗马化

研究发现，在跨语言转移方面，罗马化输入法虽存在一定的信息损失，但可以在相关语言间改善字母表不同的情况下的翻译质量。在目标端实现罗马输入法并配以简单的反罗马化模型能提高翻译的成功率。

Sep, 2020

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

TransMI: 创建多语言预训练语言模型的强基线框架，用于音译数据

该论文提出了一个简单而有效的框架 TransMI，通过利用多语言预训练语言模型（mPLMs）及其伴随的标记器，将数据转写成共同脚本，从而创建一个强大的基准，有效处理转写数据，提高 3% 至 34% 的性能。

May, 2024

探索音译在上下文学习中的作用，针对非拉丁文字书写的低资源语言

研究发现，通过使用转写技术，可以提高非拉丁脚本的低资源语言中解码器优化的大型语言模型（LLMs）在顺序标注任务中的性能。

Jul, 2024

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

通过仅使用平行数据训练的大型语言模型研究翻译能力

本研究引入了 PLUME（Parallel Language Model），该模型是由三个 2B LLMs 组成，采用不同词汇量（32k、128k 和 256k），并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在 16 个有监督翻译方向和 56 个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型，我们对 LLMs 的翻译能力进行了全面调查，探究其性能、提示的不同元素以及跨语言表示空间的影响。

Jun, 2024

使用大语言模型引导多语言语义分析器

使用大型语言模型通过少量提示将英文数据集转化为多种语言，以实现多语言语义解析，并在两个公共数据集上与传统的翻译 - 训练方法进行比较，表明使用 LLM 更有效。

Oct, 2022

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

高低资源语言的开放领域对话中，预训练语言模型的语言可移植策略

本文研究使用大规模预训练语言模型（PLMs）在高资源语言中用于开放领域对话系统的语言可移植性策略，主要以法语作为目标低资源语言，通过不同方法评估在目标语言中使用 PLMs 的性能，包括神经机器翻译和 MAD-X Adapter 架构的应用。

Jul, 2024