- mBBC: 探索多语迷宫
多语言语言模型的综合评估:mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估,发现资源可用性对模型性能有重要影响,并且资源可用性、语言家族和脚本类型之间存在复杂关系,为模型选择和部署提供了见解。
- 使用单词对齐评估词嵌入,mbert 是否理解罗曼什语?
我们测试了基于相似性的单词对齐模型(SimAlign 和 awesome-align)与来自 mBERT 和 XLM-R 的单词嵌入在德语和罗曼什语平行句子中的组合。通过使用来自 mBERT 的嵌入,两种模型都达到了 0.22 的对齐误差率 - 跨语言转移学习在推特上识别值得检查的声明
本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零 - shot 跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样 - 扩展基于单词的质量评估以供后期编辑辅助
本文提出了一种称为扩展单词对齐的新概念,以提高后编辑辅助效率,并应用于一项新任务 - 精化的单词级质量评估。文章采用基于 mBERT 的监督方法提取扩展单词对齐,用回归模型训练 mBERT 和 XLM-R 进行序列标注来解决单词级质量评估问 - 为低资源语言预训练数据质量和数量:马耳他语新语料库和 BERT 模型
本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种(如马耳他语)的效果,并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明,使用混合预训练域往往优于仅使用维基百科文本,并且只有一小部分的马耳他语语料库就足 - 西班牙语句子表示的评估基准
通过构建两个评估基准(Spanish SentEval 和 Spanish DiscoEval),我们评估了最近的预先训练的西班牙语语言模型的功能和局限性,这些基准包括大量现有的和新构建的数据集,以解决来自各种领域的不同任务,并发现在对话评 - 跨语言调整上下文词表示对零 - shot 迁移的影响
本研究使用已训练好的 mBERT 模型对英语模型进行零样本迁移,并尝试采用小型平行语料库进行跨语言调整以提高性能表现,结果表明跨语言调整对不同语言的自然语言处理任务表现效果显著,且可以提高语义相似词汇的嵌入向量距离。
- ACL通过两阶段对比学习提高单词翻译
本文提出了一个稳健且有效的两阶段对比学习框架,旨在弥合不同语言之间的词汇鸿沟,其中运用了双语词典归纳、交叉语言映射等方式,从而成功提高了跨语言单词翻译的准确率。
- ACLSyntax-augmented Multilingual BERT 跨语言转移
本研究表明,通过在辅助目标中提供语言语法和训练 mBERT 以对通用依赖树结构进行编码,可提高跨语言转移,从而提高了在四项 NLP 任务中的性能表现。
- ACL多语言 LAMA:探究多语言预训练语言模型中的知识
翻译 TREx 和 GoogleRE 两项基准测试为 53 种语言,使用 mBERT 模型研究其作为多语言知识库的性能及影响因素,发现其性能因被查询的语言而异,同时使用多种语言的预测结果可提高性能。
- AAAI使用 Fine Tuned 多语言嵌入在印地语帖子中进行粗粒度和细粒度的敌意检测
研究采用基于 mBERT 的神经网络技术,对资源受限的印地语社交媒体上的言论进行多标签分类,结果表明该模型的绩效超过了现有的基准模型,成为了印地语言领域检测敌意的最佳模型。
- EMNLP关于上下文嵌入零样本跨语言评估的不使用英语开发
本文研究了多语言语境嵌入在零样本跨语言迁移学习上的表现,并发现使用英语进行零样本设置时很难获得可重复的结果和一致的检查点,建议在零样本结果旁边提供 oracle 分数,通过避免任意差的检查点使结果更一致。
- 混合语言对话的自然语言推理新数据集
本文提出了第一个用于混合语言自然语言推理的数据集,其中使用来自印地语电影和双语人士的双语代码混合作为前提和假设,并使用标准的 mBERT 算法对数据集进行了评估。
- EMNLPBeto, Bentz, Becas:BERT 的跨语言效果之惊人
该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用,包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现,mBERT 在每个任务上都具有竞争力,并考察了其使用策略、语言无关特征和影响跨语言