BERT 用于单语和跨语言逆词典

EMNLPSep, 2020

BERT for Monolingual and Cross-Lingual Reverse Dictionary

Hang Yan, Xiaonan Li, Xipeng Qiu

TL;DR本文研究怎样使用 BERT 模型来完成 Reverse Dictionary 的任务，并结合 Multilingual BERT 模型实现多语言反向词典转换，同时提出了一种有效的方法来解决 BERT 模型生成词的问题。该模型在没有平行语料库的情况下，也能够实现出色的跨语言反向词典性能。

Abstract

reverse dictionary is the task to find the proper target word given the word description. In this paper, we tried to incorporate bert into this task. However, since →

reverse dictionary bert subword encoding cross-lingual monolingual data

发现论文，激发创造

学习表示双语词典

该研究提出了一种神经嵌入模型，利用双语词典将文字定义映射到双语目标词汇，探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程，实验结果表明，该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异，并有效地解决了双语释义识别问题。

Aug, 2018

BERT 下的跨语言信息检索

使用 BERT 模型在多语言语料中训练跨语言信息检索模型，实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型

Apr, 2020

在 Semeval-2022 任务 1 中的 1Cademy：通过多语言、多任务和语言无关技巧，研究反向词典任务的有效性

本文介绍了我们针对 SemEval2022 词典义项匹配任务所设计的系统，主要集中在比赛的 Reverse Dictionary Track 上，涉及到多语言义项到重构向量的映射，主要是将输入句子转换为三类不同类型的嵌入。我们提出了几个实验，包括神经网络单元、通用多语言和多任务结构，以及语言无关技巧。最终我们的 Elmobased 单语言模型表现最佳，并且多任务、多语言变体也表现出竞争力。

Jun, 2022

多语言 BERT 的跨语言能力：实证研究

通过在不同语言和不同自定义 NLP 任务上的实验研究，本文详细研究了 M-BERT 中不同组建在其跨语言能力中的贡献，发现词汇重叠在跨语言成功中起到微不足道的作用，而网络深度则是成功的一个重要因素。

Dec, 2019

建立跨语言密集检索模型的迁移学习方法

本文介绍了 ColBERT-X，这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型，用于支持跨语言信息检索（CLIR）。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。

Jan, 2022

Rosetta Stone 在 KSAA-RD 共享任务中的应用：从语言建模到词定义对齐

以阿拉伯逆向词典为例，通过阿拉伯文或英文定义为输入，使用模型预测词嵌入并通过取平均值得到最终的表示，另外将英文定义翻译为阿拉伯文并应用于模型也是有效的解决方法。

Oct, 2023

先对齐，再预测：理解多语言 BERT 的跨语言能力

使用一种新的层摘除技术和模型内部表示的分析方法，我们发现多语言 BERT 可看作两个子网络的堆叠：一个多语言编码器和一个任务特定的语言无关的预测器。编码器对于跨语言传递非常关键，在微调过程中大部分不变，而任务预测对传递影响很小，可以在微调期间重新初始化。

Jan, 2021

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020

从多语言 BERT 感知单词级别翻译

本研究探讨了多语言 BERT（mBERT）的跨语言表示，并提出了两种简单的方法来暴露其卓越的翻译能力。研究结果表明，mBERT 学习表示既包含语言编码组件，又包含抽象的跨语言组件，并明确确定了一种 mBERT 表示中的经验语言识别子空间。

Oct, 2020

Beto, Bentz, Becas：BERT 的跨语言效果之惊人

该研究探讨了 mBERT 作为零 - shot 语言转移模型在跨语言任务上的运用，包括 NLI、文档分类、NER、POS 标注和依赖分析等五个任务。研究发现，mBERT 在每个任务上都具有竞争力，并考察了其使用策略、语言无关特征和影响跨语言传输的因素。

Apr, 2019