利用多语言 BERT、小语料库和小树库进行分析
本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种(如马耳他语)的效果,并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明,使用混合预训练域往往优于仅使用维基百科文本,并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外,本文还预训练并比较了两个模型:从头开始训练的单语 BERT 模型(BERTu)和进一步预训练的多语言 BERT 模型(mBERTu),这两个模型都在各种下游任务上取得了最先进的性能。
May, 2022
本研究针对资源匮乏的语言环境下,针对高度分析形态的自然语言(MRLs)的依赖句法分析任务,提出了预训练的简单辅助任务方法,实验结果表明,提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高
Feb, 2021
本文研究在少量训练数据的情况下,如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中,发现数据增强和跨语言训练都能提高性能,而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。
Sep, 2019
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
本研究比较了两种半监督学习技术,即 tri-training 和预训练词嵌入,在依存句法分析任务中的表现。研究探讨了语言特定的 FastText 和 ELMo 嵌入以及多语言 BERT 嵌入,并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明,预训练词嵌入比 tri-training 更有效地利用了未标记数据,但这两种方法可以成功地结合使用。
Sep, 2021
使用多语言模型进行依赖解析,通过使用多语言单词聚类和嵌入,令解析器能够在多种语言中进行有效解析,同时基于语言普遍规律和类型相似性实现跨语言推断,从而使其能够更有效地从有限的注释中进行学习。
Feb, 2016
通过对各种语言和预训练条件进行的实验比较表明,联合无监督预训练和微调是一种有效的方法,可以在各种语言上提高句法分析的性能并实现新的最先进的结果。
Dec, 2018
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023