语言无关的 BERT 句子嵌入

ACLJul, 2020

Language-agnostic BERT Sentence Embedding

Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang

TL;DR本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Abstract

While bert is an effective method for learning monolingual sentence embeddings for semantic similarity and embedding based transfer learning (Reimers and Gurevych, 2019), bert based cross-lingual sentence embeddi

bert multilingual sentence embeddings masked language modeling translation language modeling commoncrawl

发现论文，激发创造

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构，其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示，并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练，可将其转移至任何一种语言，且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。

Dec, 2018

无监督多语言句子嵌入用于平行语料挖掘

本研究提出了一种新的无监督方法，通过使用单语数据来获得跨语言句子嵌入，产生了合成平行语料库，使用预训练的跨语言掩码语言模型（XLM）对其进行微调以得到多语言句子表示，并在两个平行语料库挖掘任务上评估了表示的质量，结果表明，这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外，我们还观察到，单个合成的双语语料库能够改善其他语言对的结果。

May, 2021

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

Beto, Bentz, Becas：BERT 的跨语言效果之惊人

该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用，包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现，mBERT 在每个任务上都具有竞争力，并考察了其使用策略、语言无关特征和影响跨语言传输的因素。

Apr, 2019

来自平行句子的稳健跨语言嵌入

提出一种基于双语 CBOW 方法的联合学习方法，通过利用句子对齐语料库获得强健的跨语言词和句子表示，显著提高了跨语言句子检索性能，并在维持单词翻译方面与最先进的方法并驾齐驱，同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平，对单语词向量的提高优势明显。

Dec, 2019

多语言 BERT 模型预训练后对齐

本研究提出了一种简单的方法，作为预训练后对多语种上下文嵌入进行对齐的步骤，以提高预训练模型的零 - shot 跨语言迁移能力。该方法通过最近提出的 Translation Language Modeling 目标在词级别上对嵌入进行对齐，并通过对比学习和随机输入洗牌在句子级别上进行对齐。在下游任务的微调中，使用英语进行句子级别的代码转换。在 XNLI 上，我们的最佳模型（从 mBERT 初始化）在零 - shot 设置上比 mBERT 提高了 4.7％，在使用少于 18％的相同平行数据和 31％的模型参数的情况下，实现了与 XLM for translate-train 相当的结果。在 MLQA 上，我们的模型胜过比我们多 57％参数的 XLM-R_Base。

Oct, 2020

多语言 BERT 有多少语言中性？

本文讨论了 Multilingual BERT (mBERT) 的语义属性，表明 mBERT 表征可以分为特定语言和语言中立两个部分，语言中立部分可以高准确度地对齐单词和检索句子，但尚不足以评估机器翻译质量。该研究揭示了构建更好的语言中立表征的挑战，特别是对于需要语义语言转移的任务。

Nov, 2019

Multilingual BERT 的多语言能力如何？

研究表明，在零 - shot 跨语言模型转移方面，多语言 BERT（M-BERT）表现出惊人的性能，经过大量探究实验，证明转移甚至可以到不同文字的语言中，但它们会因特定的语言对而表现出系统缺陷。

Jun, 2019

通过自编码学习双语句子嵌入并使用多层感知器计算相似度

本文提出一种新型模型架构及培训算法，可从平行和单语数据的组合中学习双语句子嵌入。我们通过自编码和神经机器翻译将源语言和目标语言的句子嵌入连接起来。并通过多层感知机来提取非平行或有噪声的双语句对，此方法在句子对齐和 WMT2018 上表现出有希望的性能。

Jun, 2019

BERT 下的跨语言信息检索

使用 BERT 模型在多语言语料中训练跨语言信息检索模型，实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型

Apr, 2020