用基于音译的后训练对齐打破多语言预训练语言模型的脚本障碍

Jun, 2024

用基于音译的后训练对齐打破多语言预训练语言模型的脚本障碍

Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment

PDF

Orgest Xhelili, Yihong Liu, Hinrich Schütze

TL;DR使用基于音译的预训练后对齐（PPA）方法，改善使用不同文字脚本的相互关联低资源目标语言与高资源源语言之间的跨语言对齐，进而在跨语言转移任务中，提高模型性能达到 50% 的改进；同时使用非英语语言作为源语言转移，可获得更大的改进。

Abstract

multilingual pre-trained models (mPLMs) have shown impressive performance on cross-lingual transfer tasks. However, the transfer performance is often hindered when a →

multilingual pre-trained models cross-lingual transfer tasks transliteration-based post-pretraining alignment low-resource target language diverse scripts

发现论文，激发创造

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

预训练后的对齐：通过跨语言对齐提升多语生成模型

通过利用翻译句子对齐内部句子表示，并通过回答不同语言的提示问题对齐模型输出，我们提出了一个简单而有效的对齐框架，显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明，它导致了更好的多语言模型的内部多语言表示分布。

Nov, 2023

TransliCo: 解决多语种预训练语言模型中的脚本障碍的对比学习框架

通过 TransliCo 框架中的 Transliteration Contrastive Modeling (TCM) 对 mPLM 进行精调，通过对其训练数据中的句子及其在统一脚本 (Latn) 中的音译进行对比，确保了不同脚本的统一表示空间，解决了多语言预训练语言模型在跨语言知识学习中面临的脚本障碍，并表现出更好的性能。

Jan, 2024

TransMI: 创建多语言预训练语言模型的强基线框架，用于音译数据

该论文提出了一个简单而有效的框架 TransMI，通过利用多语言预训练语言模型（mPLMs）及其伴随的标记器，将数据转写成共同脚本，从而创建一个强大的基准，有效处理转写数据，提高 3% 至 34% 的性能。

May, 2024

相关语言间的跨语言转移：将低资源马耳他语视为多语言代码交换

使用词源学的条件转译对马耳他语进行预处理可以提高多语言语言模型的跨语言迁移能力，在四个下游任务中表现最佳。

Jan, 2024

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

多语言 BERT 模型预训练后对齐

本研究提出了一种简单的方法，作为预训练后对多语种上下文嵌入进行对齐的步骤，以提高预训练模型的零 - shot 跨语言迁移能力。该方法通过最近提出的 Translation Language Modeling 目标在词级别上对嵌入进行对齐，并通过对比学习和随机输入洗牌在句子级别上进行对齐。在下游任务的微调中，使用英语进行句子级别的代码转换。在 XNLI 上，我们的最佳模型（从 mBERT 初始化）在零 - shot 设置上比 mBERT 提高了 4.7％，在使用少于 18％的相同平行数据和 31％的模型参数的情况下，实现了与 XLM for translate-train 相当的结果。在 MLQA 上，我们的模型胜过比我们多 57％参数的 XLM-R_Base。

Oct, 2020

通过基于翻译的对齐实现参数高效的跨语言视觉与语言模型转移

本文提出一种新的参数高效的跨语言转移学习框架，利用基于翻译的对齐方法来缓解多语言差异，并探索参数高效的微调方法，经过广泛的实验表明，我们的框架显著减少了语言之间的多语言差异，并在跨语言转移方面取得了改进，尤其在低资源场景中，同时只保留和微调极少量的参数与全模型相比（例如，我们的框架对于每种语言只需要全模型的 0.16% 的额外参数，在 few-shot 学习场景下）。

May, 2023

利用多语言序列到序列预训练技术在文本生成与理解中弥合跨语言差距

本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型（multilingual Seq2Seq PLMs) 的性能的方法，实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART，可以缩小跨语言句子表示的欧几里得距离，并且在计算成本方面没有太多的增加。

Apr, 2022

通过音标转录整合提升跨语言迁移

我们提出了 PhoneXL 框架，通过使用音素转录作为传统的正字转录之外的附加语言模态，以缓解不同书写脚本语言之间的差距，同时释放出首个音素 - 正字对齐数据集，并展示了音素转录提供了关键信息，能够增强 CJKV 语言之间的跨语言传输，从而在跨语言标记级任务上实现持续改进。

Jul, 2023