利用大语言模型实现低资源双语方言词典归纳

Apr, 2023

利用大语言模型实现低资源双语方言词典归纳

Low-resource Bilingual Dialect Lexicon Induction with Large Language Models

Ekaterina Artemova, Barbara Plank

TL;DR本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤：双语词汇识别（BLI）。研究了在德国及其两个方言，巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战，使用预训练的大型语言模型（LLMs）的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。

Abstract

Bilingual word lexicons are crucial tools for multilingual natural language understanding and machine translation tasks, as they facilitate the mapping of words in one language to their synonyms in another language. To achieve this, numerous papers have explored bilingual lexicon induction

bilingual lexicon induction german dialects language models word alignment multilingual natural language understanding

发现论文，激发创造

关于使用大型语言模型进行双语词典归纳

使用最新一代的大型语言模型，我们系统地研究了双语词典诱导（BLI）任务，包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调，并证明了与当前 BLI 方法相比，这种方法在许多语言对上取得了最新的 BLI 成绩。

Oct, 2023

一种简单的方法用于数据不平衡、紧密相关的语言对的无监督双语词典归纳

介绍了一种适用于资源匮乏语言的无监督双语词汇表感知方法，该方法仅需要使用高资源语言单语 BERT 进行推理，并在印度次大陆的五种语言中首次发布自动生成的双语词汇表。

May, 2023

双语词典归纳的词汇性质如何？

在现代机器学习中，双语词汇诱导（BLI）的方法中，模型学习了语言对的嵌入空间之间的映射。最近，BLI 的检索与排序方法在该任务上取得了最先进的结果。然而，在资源匮乏的环境下，该问题仍然具有挑战性，因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效，在所有语言对中，平均提升了 2% 以上的性能，超过了先前的最佳结果。

Apr, 2024

无监督双语平行语料库构建及词对齐的双语词汇识别

本文提出了一种过程，结合自监督的双文本挖掘与自监督的词对齐，从而产生更高质量的双语词典，进一步地，学习过滤结果的词汇条目，最终模型在 12 种语言对上的 BUCC 2020 共享任务中，比现有技术提高了 14 个 F1 点，同时提供更加可解释的方法和丰富的词义语境推理能力。

Jan, 2021

通过两阶段对比学习提高单词翻译

本文提出了一个稳健且有效的两阶段对比学习框架，旨在弥合不同语言之间的词汇鸿沟，其中运用了双语词典归纳、交叉语言映射等方式，从而成功提高了跨语言单词翻译的准确率。

Mar, 2022

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

LNMap: 基于潜空间非线性映射的双语词典感应中的同构假设偏移

提出了一种新的半监督方法，通过两个独立训练的自编码器的潜在空间使用非线性映射，学习用于双语词汇识别的跨语言词嵌入表示，并在 15 种不同方向的语言对（包括资源丰富和低资源语言）的两个数据集上进行了广泛的实验，结果表明该方法优于现有模型。

Apr, 2020

结合静态词向量和上下文表示的双语词汇表归纳

本研究提出了一种将静态词向量和上下文表示相结合的机制来改进双语词典归纳（BLI）的表现，结果表明在监督及无监督的基准测试环境下，我们的机制均可提高 3.2 和 3.1 个百分点左右的性能表现。

Jun, 2021

ProMap: 通过语言模型启发的有效双语词典归纳

ProMap 是一种创新的双语词汇感应方法，利用预训练的多语言模型，在富资源语言和低资源语言中均实现了最先进的结果，尤其在少样本情况下表现出强大的性能，为低资源语言翻译提供了有价值的工具。

Oct, 2023

双语词典感应中的半监督非等距嵌入空间

该论文提出了一种半监督的双语词汇识别方法（BLISS），该方法使用了一个新的中枢过滤技术，可以放松两个嵌入空间同构假设，利用有限的对齐双语词汇表和更大的未对齐词汇表，实现了令人瞩目的效果。

Aug, 2019