相关语言间的跨语言转移：将低资源马耳他语视为多语言代码交换

ACLJan, 2024

相关语言间的跨语言转移：将低资源马耳他语视为多语言代码交换

Cross-Lingual Transfer from Related Languages: Treating Low-Resource Maltese as Multilingual Code-Switching

Kurt Micallef, Nizar Habash, Claudia Borg, Fadhl Eryani, Houda Bouamor

TL;DR使用词源学的条件转译对马耳他语进行预处理可以提高多语言语言模型的跨语言迁移能力，在四个下游任务中表现最佳。

Abstract

Although multilingual language models exhibit impressive cross-lingual transfer capabilities on unseen languages, the performance on downstream tasks is impacted when there is a script disparity with the languages used in the multilingual model's pre-training data. Using →

multilingual language models cross-lingual transfer transliteration mixed languages word etymology

发现论文，激发创造

音译是否有助于多语言语言建模？

本文研究了在多语言语言模型中应用转写对性能的影响，并在 IndicGLUE 基准测试集上评估了两个 ALBERT 模型，结果显示转写使得低资源语言的性能得到了提升，且基于转写的模型具有更高和更稳定的交叉语言表示相似度分数。

Jan, 2022

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

语言相似性和书写形式对阿尔及利亚多层次方言语料库的相互作用

本篇研究探讨了跨语言相似度与不同文本之间的相互作用，针对两个监督学习任务，即词性标注和情感分析，使用新标注的阿尔及利亚用户生成评论语料库和多语言模型进行研究，并发现语言的相似度和文本差异之间存在微妙的关系。

May, 2021

探究多语种机器翻译中的词汇共享在印度语言中的应用

本文研究了多语言机器翻译中的词汇共享和转写等策略对翻译性能的影响，并探讨了数据采样和词汇大小之间的平衡。研究发现，转写并不能显著提高翻译性能，而原始脚本训练的多语言机器翻译模型对于不同脚本的语言具有较强的泛化能力。

May, 2023

跨语言脚本转化与对齐：用于混合编码数据的情感检测

本研究提出了一种跨语言脚本知识共享架构，利用交叉关注和语言脚本的对齐来生成更好的文本表示，实验证明了该方法的有效性，并通过模型可解释性技术解释了语言特定表示之间的知识共享。

Feb, 2024

是否翻译：对基于翻译的跨语言转移到低资源语言的系统调查

用机器翻译和多语言模型来进行跨语言转移，尤其是对低资源语言进行翻译的方法比零样本跨语言转移方法要有效。通过在源语言训练数据上进行往返翻译并在目标语言测试实例上进行翻译的方法最有效。同时，通过将其他高资源语言的可靠翻译添加到训练数据中，还可以获得更多实证方面的收益。研究还提出了一种针对不受机器翻译系统支持的语言的有效的基于翻译的跨语言转移策略。最后，通过使用目标语言校验数据来进行模型选择，比使用源语言数据进行模型选择要更好。我们希望我们的研究结果能够促进在跨语言转移研究中采用更可靠的基于翻译的基准线方法。

Nov, 2023

混合语文本数据的渐进情感分析

本研究提出了一种基于多语言变形器语言模型的框架，将区分资源丰富和资源贫乏语言作为参考来逐步从资源丰富语言的样本到资源贫乏语言的样本进行训练，来解决多语言情感分析中的跨语言学习问题。实验证明，该框架能有效帮助资源贫乏语言的样本训练。

Oct, 2022

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

通过近缘语言进行向低资源语言的转移：以法罗语为例的案例研究

通过研究低资源语言法罗语和高资源语言家族之间的语言分类、起源和进化关系，将在多语言语境下的 NLP 应用中常用的 “一刀切”（one-size-fits-all) 的翻译方式转变为提供更高的翻译准确度，同时利用丰富的斯堪的那维亚语言（丹麦语、挪威语、瑞典语和冰岛语）的资源来为 Faroeese 语提供支持，其结果表明可以大幅提高向低资源语言法罗语的翻译性能，并开发了一个新的 web Farosee 语料库，并提供命名实体识别（NER），语义文本相似度（STS）和所有斯堪的那维亚语言训练的新语言模型的数据集。

Apr, 2023

通过将标记映射到共享字符空间训练双语语言模型

使用音译的阿拉伯文本的双语阿拉伯 - 希伯来语言模型来确保两种语言在同一书写系统中得到表达，评估了在需要跨语言知识的机器翻译中，同时使用统一书写系统的语言模型的性能，结果表明我们的模型超过了保留阿拉伯文本在阿拉伯文字中的对照模型，证明了音译步骤的有效性。尽管我们的模型在训练数据集大小约为其他现有语言模型的 60％，但在机器翻译方向上提供了可比性的性能。

Feb, 2024