利用多语言 BERT、小语料库和小树库进行分析

EMNLPSep, 2020

利用多语言 BERT、小语料库和小树库进行分析

Parsing with Multilingual BERT, a Small Corpus, and a Small Treebank

Ethan C. Chau, Lucy H. Lin, Noah A. Smith

TL;DR本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Abstract

pretrained multilingual contextual representations have shown great success, but due to the limits of their pretraining data, their benefits do not apply equally to all language varieties. This presents a challen

multilingual pretrained low-resource language-specific dependency parsing

发现论文，激发创造

为低资源语言预训练数据质量和数量：马耳他语新语料库和 BERT 模型

本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种（如马耳他语）的效果，并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明，使用混合预训练域往往优于仅使用维基百科文本，并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外，本文还预训练并比较了两个模型：从头开始训练的单语 BERT 模型（BERTu）和进一步预训练的多语言 BERT 模型（mBERTu），这两个模型都在各种下游任务上取得了最先进的性能。

May, 2022

少量预训练大有裨益：针对低资源词形丰富语言的依存句法分析任务案例研究

本研究针对资源匮乏的语言环境下，针对高度分析形态的自然语言（MRLs）的依赖句法分析任务，提出了预训练的简单辅助任务方法，实验结果表明，提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高

Feb, 2021

在真正的低资源语言上，对于低资源依赖分析的方法进行系统比较

本文研究在少量训练数据的情况下，如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中，发现数据增强和跨语言训练都能提高性能，而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。

Sep, 2019

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

依存句法分析器的三倍训练的再探讨

本研究比较了两种半监督学习技术，即 tri-training 和预训练词嵌入，在依存句法分析任务中的表现。研究探讨了语言特定的 FastText 和 ELMo 嵌入以及多语言 BERT 嵌入，并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明，预训练词嵌入比 tri-training 更有效地利用了未标记数据，但这两种方法可以成功地结合使用。

Sep, 2021

众多语言，一种解析器

使用多语言模型进行依赖解析，通过使用多语言单词聚类和嵌入，令解析器能够在多种语言中进行有效解析，同时基于语言普遍规律和类型相似性实现跨语言推断，从而使其能够更有效地从有限的注释中进行学习。

Feb, 2016

自我注意力和预训练的多语言组成句法分析

通过对各种语言和预训练条件进行的实验比较表明，联合无监督预训练和微调是一种有效的方法，可以在各种语言上提高句法分析的性能并实现新的最先进的结果。

Dec, 2018

跨语言和语法下预训练模型的评估

我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法，将分析转化为序列标记，通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们，结果表明：（i）该框架在多种编码上一致，（ii）预先训练的词向量不偏好成分句法表示，而是倾向于依赖表示，（iii）子词标记化需要用于表示语法，与基于字符的模型不同，（iv）从词向量中恢复语法时，语言在预训练数据中的出现比任务数据的数量更重要。

Sep, 2023