用基于音译的后训练对齐打破多语言预训练语言模型的脚本障碍
本文研究了在多语言语言模型中应用转写对性能的影响,并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型,结果显示转写使得低资源语言的性能得到了提升,且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。
Jan, 2022
通过利用翻译句子对齐内部句子表示,并通过回答不同语言的提示问题对齐模型输出,我们提出了一个简单而有效的对齐框架,显著增强了生成模型的跨语言能力并减小了性能差异。进一步分析表明,它导致了更好的多语言模型的内部多语言表示分布。
Nov, 2023
通过 TransliCo 框架中的 Transliteration Contrastive Modeling (TCM) 对 mPLM 进行精调,通过对其训练数据中的句子及其在统一脚本 (Latn) 中的音译进行对比,确保了不同脚本的统一表示空间,解决了多语言预训练语言模型在跨语言知识学习中面临的脚本障碍,并表现出更好的性能。
Jan, 2024
该论文提出了一个简单而有效的框架 TransMI,通过利用多语言预训练语言模型(mPLMs)及其伴随的标记器,将数据转写成共同脚本,从而创建一个强大的基准,有效处理转写数据,提高 3% 至 34% 的性能。
May, 2024
本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
本研究提出了一种简单的方法,作为预训练后对多语种上下文嵌入进行对齐的步骤,以提高预训练模型的零 - shot 跨语言迁移能力。该方法通过最近提出的 Translation Language Modeling 目标在词级别上对嵌入进行对齐,并通过对比学习和随机输入洗牌在句子级别上进行对齐。在下游任务的微调中,使用英语进行句子级别的代码转换。在 XNLI 上,我们的最佳模型(从 mBERT 初始化)在零 - shot 设置上比 mBERT 提高了 4.7%,在使用少于 18%的相同平行数据和 31%的模型参数的情况下,实现了与 XLM for translate-train 相当的结果。在 MLQA 上,我们的模型胜过比我们多 57%参数的 XLM-R_Base。
Oct, 2020
本文提出一种新的参数高效的跨语言转移学习框架,利用基于翻译的对齐方法来缓解多语言差异,并探索参数高效的微调方法,经过广泛的实验表明,我们的框架显著减少了语言之间的多语言差异,并在跨语言转移方面取得了改进,尤其在低资源场景中,同时只保留和微调极少量的参数与全模型相比(例如,我们的框架对于每种语言只需要全模型的 0.16% 的额外参数,在 few-shot 学习场景下)。
May, 2023
本文提出了一种通过引入代码切换任务来减少跨语言场景下的数据和任务差异从而提高多语言序列到序列预训练语言模型(multilingual Seq2Seq PLMs) 的性能的方法,实验结果表明该方法显著优于以标准微调策略微调的基准模型 mBART,可以缩小跨语言句子表示的欧几里得距离,并且在计算成本方面没有太多的增加。
Apr, 2022
我们提出了 PhoneXL 框架,通过使用音素转录作为传统的正字转录之外的附加语言模态,以缓解不同书写脚本语言之间的差距,同时释放出首个音素 - 正字对齐数据集,并展示了音素转录提供了关键信息,能够增强 CJKV 语言之间的跨语言传输,从而在跨语言标记级任务上实现持续改进。
Jul, 2023