词汇资源中词义和定义的单语对齐

Sep, 2022

词汇资源中词义和定义的单语对齐

Monolingual alignment of word senses and definitions in lexicographical resources

Sina Ahmadi

TL;DR本论文探讨词汇数据的对齐问题，在单语词典中寻找最佳对齐的方法。通过人工注释的基准评估不同技术的对齐效果，并在此基础上扩展到翻译推断。该研究可在工具实现中应用。

Abstract

The focus of this thesis is broadly on the alignment of lexicographical data, particularly dictionaries. In order to tackle some of the challenges in this field, two main tasks of word sense alignment and

lexicographical data word sense alignment translation inference lexical semantic resources bilingual lexicons

发现论文，激发创造

一种轻量级的跨语言语义文本相似度方法

该研究提出了一种基于词向量的跨语义相似度计算方法，只需要一个有限的单词翻译库，能够适用于几乎所有语言对，达到与监督和资源密集型方法相近的表现，在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。

Jan, 2018

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024

无监督双语平行语料库构建及词对齐的双语词汇识别

本文提出了一种过程，结合自监督的双文本挖掘与自监督的词对齐，从而产生更高质量的双语词典，进一步地，学习过滤结果的词汇条目，最终模型在 12 种语言对上的 BUCC 2020 共享任务中，比现有技术提高了 14 个 F1 点，同时提供更加可解释的方法和丰富的词义语境推理能力。

Jan, 2021

连点成线：通过对齐词义库桥接单词和定义之间的语义关系

本研究提出了一种采用词义从不同词义库中匹配相同词义的定义句子（术语）的光泽对齐算法，并使用这些对齐的库训练模型以确定目标单词在上下文中的语义等效性，解决了有限的训练数据和集中于 WordNet 等预定义的词义库的问题；实验结果表明，所提出的方法改善了所有词义和低频词义的预测，并优于现有工作。

Oct, 2021

半监督学习用于双语词典归纳

无监督和半监督学习方法在词向量、双语词汇归纳以及排名问题方面取得了重要进展。

Feb, 2024

利用大语言模型实现低资源双语方言词典归纳

本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤：双语词汇识别（BLI）。研究了在德国及其两个方言，巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战，使用预训练的大型语言模型（LLMs）的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。

Apr, 2023

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

使用潜在语义索引实现双语文档对齐

本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵，提取出文档的重要特征，通过将两种余弦相似度变量与 URL 相似度量的结合，可以达到高精度的 Web 页面对齐。

Jul, 2017

Sinhala-English 单词嵌入对齐：向低资源语言引入数据集和基准

利用可用的对齐技术，本研究试图对齐僧伽罗语和英语单词嵌入空间，并引入了僧伽罗语嵌入对齐的基准。此外，为了促进有监督的对齐，我们还引入了僧伽罗语 - 英语对齐数据集，作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比，我们的结果并不可比，但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。

Nov, 2023

利用单语嵌入中的结构相似性进行非监督式词汇对应

本文提出了一种无监督的方法来学习一对语言的双语词典，并利用单语向量空间中的局部和全局结构将它们对齐，从而使相似的单词映射到一起，实验表明，使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。

Dec, 2017