评估迷雾：双语词典归纳的误导性基准

EMNLPSep, 2019

评估迷雾：双语词典归纳的误导性基准

Lost in Evaluation: Misleading Benchmarks for Bilingual Dictionary Induction

Yova Kementchedjhieva, Mareike Hartmann, Anders Søgaard

TL;DR研究跨语言词嵌入的双语词典归纳的任务，发现现有数据集存在的困扰性问题：（1）数据中有 1/4 的专有名词，难以反映 BDI 表现，（2）黄金标准数据存在普遍间隔，对个体语言之间交叉嵌入系统排名和性能差异的总体度的影响，提出未来的研究要么避免从此 BDI 数据集中定量结果中得出结论，要么伴随严格的误差分析的评估。

Abstract

The task of bilingual dictionary induction (BDI) is commonly used for intrinsic evaluation of cross-lingual word embeddings. The largest dataset for BDI was generated automatically, so its quality is dubious. We

bilingual dictionary induction cross-lingual word embeddings test set proper nouns gold-standard targets

发现论文，激发创造

双语词典归纳的词汇性质如何？

在现代机器学习中，双语词汇诱导（BLI）的方法中，模型学习了语言对的嵌入空间之间的映射。最近，BLI 的检索与排序方法在该任务上取得了最先进的结果。然而，在资源匮乏的环境下，该问题仍然具有挑战性，因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效，在所有语言对中，平均提升了 2% 以上的性能，超过了先前的最佳结果。

Apr, 2024

利用大语言模型实现低资源双语方言词典归纳

本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤：双语词汇识别（BLI）。研究了在德国及其两个方言，巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战，使用预训练的大型语言模型（LLMs）的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。

Apr, 2023

一种简单的方法用于数据不平衡、紧密相关的语言对的无监督双语词典归纳

介绍了一种适用于资源匮乏语言的无监督双语词汇表感知方法，该方法仅需要使用高资源语言单语 BERT 进行推理，并在印度次大陆的五种语言中首次发布自动生成的双语词汇表。

May, 2023

一种简单而有效的稳健非监督双语词典归纳方法

本研究针对无监督双语词典归纳在类似语言对中表现良好但在远距离语言对中表现不佳的问题，提出迭代降维方法以此来弥补自学习最小初始化性能和实际初始化性能之间的差距，其实验结果表明这种简单的方法在类似语言对中不会影响性能，并在英语与中文，日语，越南语和泰语四种较远距离语言之间实现了 13.64-55.53% 的准确率。

Nov, 2020

无监督双语词典归纳的局限性

该文研究了无监督的机器翻译模型，提出了利用对手生成网络对词嵌入空间进行自对齐和对齐生成双语词典，但对于形态丰富的语言，无监督双语词典的表现会受到很大限制，该研究通过利用弱监督从同一词来构建词典，建立了无监督双语词典表现和图相似度的相关性。

May, 2018

关于使用大型语言模型进行双语词典归纳

使用最新一代的大型语言模型，我们系统地研究了双语词典诱导（BLI）任务，包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调，并证明了与当前 BLI 方法相比，这种方法在许多语言对上取得了最新的 BLI 成绩。

Oct, 2023

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

双语词表归纳的判别式潜变量模型

我们提出了一种新的判别式潜变量模型，用于双语词典归纳任务，该模型将 Haghighi 等人的二分匹配字典先验与最先进的基于嵌入的方法相结合。我们提供了在两个度量标准下六个语言对上的经验改进，并表明先前的工作可以被视为类似配置的潜变量模型，尽管具有不同的先验。

Aug, 2018

评估无监督的荷兰语单词嵌入作为语言资源

本文探讨使用基于计数和基于预测结构构建的多种类型词向量嵌入在两个特定任务中的表现，即关系评估和方言识别，同时展示了这些嵌入的实用性以及在下游任务中的有效性。

Jul, 2016

如何（正确地）评估跨语言词向量：关于强基线、比较分析及一些误解

本文基于多语言词嵌入（CLE）并从多个方面对 CLW 模型进行了全面评估，提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。

Feb, 2019