为 BERT 多语能力识别必要元素
通过在不同语言和不同自定义 NLP 任务上的实验研究,本文详细研究了 M-BERT 中不同组建在其跨语言能力中的贡献,发现词汇重叠在跨语言成功中起到微不足道的作用,而网络深度则是成功的一个重要因素。
Dec, 2019
该论文在多语言语言模型上进行了大规模实证研究,并发现词嵌入的对齐程度与零 - shot 迁移的性能密切相关,因此需要在多语言模型中专门改善词嵌入的对齐程度。
Oct, 2021
本文讨论了 Multilingual BERT (mBERT) 的语义属性,表明 mBERT 表征可以分为特定语言和语言中立两个部分,语言中立部分可以高准确度地对齐单词和检索句子,但尚不足以评估机器翻译质量。该研究揭示了构建更好的语言中立表征的挑战,特别是对于需要语义语言转移的任务。
Nov, 2019
本研究针对多语言 BERT 的序列到序列建模进行实验,证实其不需要训练就能够实现跨语言的转化,并提出一种无监督的分析方法,证明 Multilingual BERT 可以学习到一定的语言普遍规律。
May, 2020
研究表明,在零 - shot 跨语言模型转移方面,多语言 BERT(M-BERT)表现出惊人的性能,经过大量探究实验,证明转移甚至可以到不同文字的语言中,但它们会因特定的语言对而表现出系统缺陷。
Jun, 2019
该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用,包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现,mBERT 在每个任务上都具有竞争力,并考察了其使用策略、语言无关特征和影响跨语言传输的因素。
Apr, 2019
本文研究了 Multilingual BERT 在多种语言下的性能表现,特别是在对低资源语言的表示质量方面的评估,结果表明 Monolingual BERT 和 mBERT 相比差距较大,而解决这个问题的关键在于更有效的预训练技术或更多的数据。
May, 2020
本文探讨了利用 mBERT 最后一个 transformer 层以外的信息,采用基于 attention 机制的特征聚合模块,对不同层次的信息进行融合。实验结果表明,在 XNLI、PAWS-X、NER、POS 等关键领域任务中,该方法在零 - shot Cross-lingual 下具有良好的性能提升,并且探讨了 mBERT 的可解释性。
May, 2022
使用一种新的层摘除技术和模型内部表示的分析方法,我们发现多语言 BERT 可看作两个子网络的堆叠:一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键,在微调过程中大部分不变,而任务预测对传递影响很小,可以在微调期间重新初始化。
Jan, 2021