BERT 无法对齐字符
我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果,针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估,使用自动 MT 指标,证明了在相似语言之间,字符级输入分割有益;而对于不相关语言,字符级传统 Transformer 基本落后于子词级分割;我们实验证实了通过微调已经训练好的子词级模型可以弥补这一差距的先前研究结论。
Aug, 2023
本研究探讨了多语言 BERT(mBERT)的跨语言表示,并提出了两种简单的方法来暴露其卓越的翻译能力。研究结果表明,mBERT 学习表示既包含语言编码组件,又包含抽象的跨语言组件,并明确确定了一种 mBERT 表示中的经验语言识别子空间。
Oct, 2020
提出了一种测量和加强上下文嵌入对齐的程序,证明其在分析和改进多语言 BERT 方面非常有用。在我们的对齐程序之后,BERT 在零 - shot 任务中表现显著提高。使用上下文版本的 Word Retrieval 任务,我们发现 BERT 存在系统性缺陷,在我们的对齐程序下得到了纠正。这些结果支持上下文对齐作为理解大型多语言预训练模型的一个有用概念。
Feb, 2020
本文分析了不同形式的跨语言监督和各种对齐方法对 Multilingual BERT 在零 - shot 设置下的转移能力的影响,比较了平行语料库 vs. 字典导向的监督和旋转 vs. 微调对齐方法,针对两个任务(名称实体识别和语义槽填充),我们评估了不同对齐方法在八种语言上的性能,并提出了一种新的规范化方法,该方法不断改进基于旋转的对齐性能,特别是远距离和在语言类型上不同的语言。此外,我们还发现对于任务和转移语言的接近程度,不同的对齐方法存在偏差,平行语料库的监督力度通常优于字典对齐。
Sep, 2020
本文提出了一种基于跨语言跨度预测的新型监督词对齐方法,使用基于多语言 BERT 的 SQuAD v2.0 风格问答任务解决了此问题,并在中英、日、德、罗、法等五个词对齐数据集上实验证明,该方法显著优于以前的监督和非监督方法,而无需使用双语语料进行预训练。
Apr, 2020
这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT,在三个 NLP 任务中表现优异,并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码,并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码,以推动现代希腊语的 NLP 研究和应用。
Aug, 2020
通过在不同语言和不同自定义 NLP 任务上的实验研究,本文详细研究了 M-BERT 中不同组建在其跨语言能力中的贡献,发现词汇重叠在跨语言成功中起到微不足道的作用,而网络深度则是成功的一个重要因素。
Dec, 2019
本文探讨了多语言 BERT 模型在语言编码、语法特性、语言生成等任务上的表现,发现该模型性能低于单语言模型,在某些情况下无法取代单语言模型,尤其在北欧语言方面表现不足。
Oct, 2019
我们测试了基于相似性的单词对齐模型(SimAlign 和 awesome-align)与来自 mBERT 和 XLM-R 的单词嵌入在德语和罗曼什语平行句子中的组合。通过使用来自 mBERT 的嵌入,两种模型都达到了 0.22 的对齐误差率,这优于基于快速对齐的统计模型,并且与已知语言的基于相似性的单词对齐持平。我们认为这些结果表明 mBERT 包含的信息可对罗曼什语具有意义且可应用。同时,我们还介绍了一种新的三语料库 DERMIT,其中包含德语,罗曼什语和意大利语的格里森州近 25 年来的新闻稿,该语料库包含 4,547 个平行文档和每种语言组合约 100,000 个句对。此外,我们还提供了德语 - 罗曼什语单词对齐的 “黄金标准”。
Jun, 2023
本文研究了 Multilingual BERT 在多种语言下的性能表现,特别是在对低资源语言的表示质量方面的评估,结果表明 Monolingual BERT 和 mBERT 相比差距较大,而解决这个问题的关键在于更有效的预训练技术或更多的数据。
May, 2020