词汇资源中词义和定义的单语对齐
该研究提出了一种基于词向量的跨语义相似度计算方法,只需要一个有限的单词翻译库,能够适用于几乎所有语言对,达到与监督和资源密集型方法相近的表现,在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。
Jan, 2018
跨语言句子嵌入领域最近取得了很大的进展,但是由于平行语料的稀缺性,对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题,我们引入了一种新的框架,通过使用现成的词对齐模型,显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标:对齐的单词预测、单词翻译排序,以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法,该方法在低资源语言的句子嵌入上取得了显著的改进。此外,所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。
Apr, 2024
本文提出了一种过程,结合自监督的双文本挖掘与自监督的词对齐,从而产生更高质量的双语词典,进一步地,学习过滤结果的词汇条目,最终模型在 12 种语言对上的 BUCC 2020 共享任务中,比现有技术提高了 14 个 F1 点,同时提供更加可解释的方法和丰富的词义语境推理能力。
Jan, 2021
本研究提出了一种采用词义从不同词义库中匹配相同词义的定义句子(术语)的光泽对齐算法,并使用这些对齐的库训练模型以确定目标单词在上下文中的语义等效性,解决了有限的训练数据和集中于 WordNet 等预定义的词义库的问题;实验结果表明,所提出的方法改善了所有词义和低频词义的预测,并优于现有工作。
Oct, 2021
本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤:双语词汇识别(BLI)。研究了在德国及其两个方言,巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战,使用预训练的大型语言模型(LLMs)的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。
Apr, 2023
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵,提取出文档的重要特征,通过将两种余弦相似度变量与 URL 相似度量的结合,可以达到高精度的 Web 页面对齐。
Jul, 2017
利用可用的对齐技术,本研究试图对齐僧伽罗语和英语单词嵌入空间,并引入了僧伽罗语嵌入对齐的基准。此外,为了促进有监督的对齐,我们还引入了僧伽罗语 - 英语对齐数据集,作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比,我们的结果并不可比,但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。
Nov, 2023
本文提出了一种无监督的方法来学习一对语言的双语词典,并利用单语向量空间中的局部和全局结构将它们对齐,从而使相似的单词映射到一起,实验表明,使用提出的无监督方法学习的双语对应词性能与使用监督学习的双语对应词从种子词典中学习的相当。
Dec, 2017