使用交叉编码器重新排序提高双语词典归纳能力

EMNLPOct, 2022

使用交叉编码器重新排序提高双语词典归纳能力

Improving Bilingual Lexicon Induction with Cross-Encoder Reranking

Yaoyiran Li, Fangyu Liu, Ivan Vulić, Anna Korhonen

TL;DR本文提出了 BLICEr（BLI with Cross-Encoder Reranking）方法，是一个半监督的后处理重排序方法，用于任意预先计算过的 CLWE 空间，取得了基于两个标准 BLI 基准的新的最先进结果，涵盖了各种不同语言的宽谱。

Abstract

bilingual lexicon induction (BLI) with limited bilingual supervision is a crucial yet challenging task in multilingual NLP. Current state-of-the-art BLI methods rely on the induction of cross-lingual word embeddings

bilingual lexicon induction cross-lingual word embeddings multilingual pretrained language models semi-supervised learning word similarity dataset

发现论文，激发创造

双语词典归纳的词汇性质如何？

在现代机器学习中，双语词汇诱导（BLI）的方法中，模型学习了语言对的嵌入空间之间的映射。最近，BLI 的检索与排序方法在该任务上取得了最先进的结果。然而，在资源匮乏的环境下，该问题仍然具有挑战性，因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效，在所有语言对中，平均提升了 2% 以上的性能，超过了先前的最佳结果。

Apr, 2024

从多语种句子编码器探究跨语言词汇知识

本文将多语言预训练模型转化为多语言句子编码器，通过对句子编码器进行探索，采用基于对比学习的简单而高效的方法，揭示了句子编码器隐含的跨语言词汇知识，进而提供了一种利用跨语言词汇的工具。

Apr, 2022

通过两阶段对比学习提高单词翻译

本文提出了一个稳健且有效的两阶段对比学习框架，旨在弥合不同语言之间的词汇鸿沟，其中运用了双语词典归纳、交叉语言映射等方式，从而成功提高了跨语言单词翻译的准确率。

Mar, 2022

关于使用大型语言模型进行双语词典归纳

使用最新一代的大型语言模型，我们系统地研究了双语词典诱导（BLI）任务，包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调，并证明了与当前 BLI 方法相比，这种方法在许多语言对上取得了最新的 BLI 成绩。

Oct, 2023

如何（正确地）评估跨语言词向量：关于强基线、比较分析及一些误解

本文基于多语言词嵌入（CLE）并从多个方面对 CLW 模型进行了全面评估，提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。

Feb, 2019

结合静态词向量和上下文表示的双语词汇表归纳

本研究提出了一种将静态词向量和上下文表示相结合的机制来改进双语词典归纳（BLI）的表现，结果表明在监督及无监督的基准测试环境下，我们的机制均可提高 3.2 和 3.1 个百分点左右的性能表现。

Jun, 2021

多语言文本编码器在跨语言检索中的应用

通过系统实证分析，我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能，但在经过监督学习优化的条件下，可在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量，还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象，这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。

Dec, 2021

我们是否真的需要完全无监督跨语言嵌入？

本论文研究无监督的跨语言词向量嵌入方法，发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果，表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。

Sep, 2019

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

双语词典感应中的半监督非等距嵌入空间

该论文提出了一种半监督的双语词汇识别方法（BLISS），该方法使用了一个新的中枢过滤技术，可以放松两个嵌入空间同构假设，利用有限的对齐双语词汇表和更大的未对齐词汇表，实现了令人瞩目的效果。

Aug, 2019