多语言 BERT 中的各种语言是否平等?
该研究探讨了mBERT作为零-shot语言转移模型在跨语言任务上的运用,包括NLI、文档分类、NER、POS标注和依赖分析等五个任务。研究发现,mBERT在每个任务上都具有竞争力,并考察了其使用策略、语言无关特征和影响跨语言传输的因素。
Apr, 2019
研究表明,在零-shot跨语言模型转移方面,多语言BERT(M-BERT)表现出惊人的性能,经过大量探究实验,证明转移甚至可以到不同文字的语言中,但它们会因特定的语言对而表现出系统缺陷。
Jun, 2019
本文讨论了Multilingual BERT (mBERT) 的语义属性,表明mBERT表征可以分为特定语言和语言中立两个部分,语言中立部分可以高准确度地对齐单词和检索句子,但尚不足以评估机器翻译质量。该研究揭示了构建更好的语言中立表征的挑战,特别是对于需要语义语言转移的任务。
Nov, 2019
本文研究了自然语言处理中的BERT模型及其多语言版本(mBERT),比较并探究了语言特定的BERT模型与mBERT在架构、数据领域和任务上的差异和共性,为读者提供了一个直观的综述和交互式展示网站。
Mar, 2020
该研究通过实现小型BERT模型的混合合成数据和自然数据训练,试图从语言学和结构特征两个方面,探究多语BERT能实现无监督跨语言转移的原因。其结果表明,在lexical、syntactic以及阅读理解方面,mBERT已实现了高质量的多语言表征和跨语言转移功能。
May, 2020
本文分析了不同形式的跨语言监督和各种对齐方法对 Multilingual BERT 在零-shot设置下的转移能力的影响,比较了平行语料库 vs. 字典导向的监督和旋转 vs. 微调对齐方法,针对两个任务(名称实体识别和语义槽填充),我们评估了不同对齐方法在八种语言上的性能,并提出了一种新的规范化方法,该方法不断改进基于旋转的对齐性能,特别是远距离和在语言类型上不同的语言。此外,我们还发现对于任务和转移语言的接近程度,不同的对齐方法存在偏差,平行语料库的监督力度通常优于字典对齐。
Sep, 2020
本研究探讨了多语言BERT(mBERT)的跨语言表示,并提出了两种简单的方法来暴露其卓越的翻译能力。研究结果表明,mBERT学习表示既包含语言编码组件,又包含抽象的跨语言组件,并明确确定了一种mBERT表示中的经验语言识别子空间。
Oct, 2020
本研究表明,通过在辅助目标中提供语言语法和训练mBERT以对通用依赖树结构进行编码,可提高跨语言转移,从而提高了在四项NLP任务中的性能表现。
Jun, 2021
本文分析了使用单语数据进行预训练对于mBERT中未包含的低资源语种(如马耳他语)的效果,并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明,使用混合预训练域往往优于仅使用维基百科文本,并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外,本文还预训练并比较了两个模型:从头开始训练的单语BERT模型(BERTu)和进一步预训练的多语言BERT模型(mBERTu),这两个模型都在各种下游任务上取得了最先进的性能。
May, 2022
该论文研究了多语言BERT(mBERT)对24种不同语言的语法关系的分布,发现该分布与语言形式差异高度一致,提示mBERT以与语言多样性一致的方式正确编码语言,并揭示了跨语言传输机制的内在机理。
Dec, 2022