多语言预训练中的表征语义共同体发现

EMNLPSep, 2021

多语言预训练中的表征语义共同体发现

Discovering Representation Sprachbund For Multilingual Pre-Training

Yimin Fan, Yaobo Liang, Alexandre Muzio, Hany Hassan, Houqiang Li...

TL;DR介绍了一种新的多语种预训练模型方法，基于语言的相似性将目标语言划分为若干组，并对每组构建一个预训练模型，实验中在跨语言基准测试中与强基线模型相比获得了显著的提升。

Abstract

multilingual pre-trained models have demonstrated their effectiveness in many multilingual NLP tasks and enabled zero-shot or few-shot transfer from high-resource languages to low resource ones. However, due to significant typological differences and contradictions between some languag

multilingual pre-trained models linguistic similarity representation sprachbund pre-training cross-lingual benchmarks

发现论文，激发创造

多语言模型中的语言表示研究

通过研究多语言模型的语言学表示，我们发现针对低资源语言，以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好，有助于理解多语言模型的问题并提供改进方法。

Oct, 2023

语言表征实际代表着什么？

本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示，尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系，发现结构相似是最能影响语言表示相似性的，而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。

Jan, 2019

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019

机器翻译：跨语言预训练和跨语言迁移学习的桥梁吗？

利用机器翻译作为持续训练目标来增强语言表示学习在跨语言学习中的作用研究发现，机器翻译无法增强多个跨语言自然语言理解任务中的跨语言表示学习，这对未来的跨语言转移研究有重要影响。

Mar, 2024

利用多语言 BERT、小语料库和小树库进行分析

本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Sep, 2020

预训练通用语言表示

本研究提出了一个通用的语言表示学习方法 MiSAD，通过利用大型未标记语料库中提取的有意义的 n-gram，实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式，从而使手头的多个语言层次的信息能够更好地统一处理，并且在 GLUE 基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。

May, 2021

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

多语言编码器如何学习跨语言表示？

本文主要研究 NLP 系统中的多语言支持，其中提到 Multilingual BERT 作为一个可应用于 104 种语言的替代方案，通过分析 Multilingual BERT 的行为和跨语言传输与这些模型的优化行为，提供更好的跨语言模型和跨语言传输理解。

Jul, 2022