使用词汇定义学习双语词嵌入

ACLJun, 2019

Learning Bilingual Word Embeddings Using Lexical Definitions

Weijia Shi, Muhao Chen, Yingtao Tian, Kai-Wei Chang

TL;DR本文提出了一种新的双语词嵌入方法 BilLex，通过公共词汇定义词对策略自动识别和传播精确细粒度单词对齐，从而实现双语之间的语义和知识迁移，并在词级和句子级翻译任务中显著优于先前的嵌入方法。

Abstract

bilingual word embeddings, which representlexicons of different languages in a shared em-bedding space, are essential for supporting se-mantic and knowledge transfers in a variety ofcross-lingual NLP tasks. Existing approachesto training →

bilingual word embeddings cross-lingual nlp lexical definitions word alignment translation tasks

发现论文，激发创造

学习表示双语词典

该研究提出了一种神经嵌入模型，利用双语词典将文字定义映射到双语目标词汇，探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程，实验结果表明，该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异，并有效地解决了双语释义识别问题。

Aug, 2018

无需双语语料库的跨语言词嵌入学习

使用高覆盖率的字典和 EM 式训练算法，该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题，在双语词汇表归纳任务中实现了表现卓越的结果，并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。

Jun, 2016

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

双语词典归纳的词汇性质如何？

在现代机器学习中，双语词汇诱导（BLI）的方法中，模型学习了语言对的嵌入空间之间的映射。最近，BLI 的检索与排序方法在该任务上取得了最先进的结果。然而，在资源匮乏的环境下，该问题仍然具有挑战性，因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效，在所有语言对中，平均提升了 2% 以上的性能，超过了先前的最佳结果。

Apr, 2024

无监督双语平行语料库构建及词对齐的双语词汇识别

本文提出了一种过程，结合自监督的双文本挖掘与自监督的词对齐，从而产生更高质量的双语词典，进一步地，学习过滤结果的词汇条目，最终模型在 12 种语言对上的 BUCC 2020 共享任务中，比现有技术提高了 14 个 F1 点，同时提供更加可解释的方法和丰富的词义语境推理能力。

Jan, 2021

结合静态词向量和上下文表示的双语词汇表归纳

本研究提出了一种将静态词向量和上下文表示相结合的机制来改进双语词典归纳（BLI）的表现，结果表明在监督及无监督的基准测试环境下，我们的机制均可提高 3.2 和 3.1 个百分点左右的性能表现。

Jun, 2021

半监督学习用于双语词典归纳

无监督和半监督学习方法在词向量、双语词汇归纳以及排名问题方面取得了重要进展。

Feb, 2024

针对双词预测定制词嵌入：一项实验比较

该论文研究了为特定的双词汇关系诱导词嵌入的问题，通过压缩现有的词向量空间，使得结果词嵌入能够成为目标双词汇关系的良好预测器，实验证明任务特定的嵌入能够提高词汇预测任务的质量和效率。

Dec, 2014

从多语种句子编码器探究跨语言词汇知识

本文将多语言预训练模型转化为多语言句子编码器，通过对句子编码器进行探索，采用基于对比学习的简单而高效的方法，揭示了句子编码器隐含的跨语言词汇知识，进而提供了一种利用跨语言词汇的工具。

Apr, 2022

基于多语境的多义词嵌入模型

该论文介绍了一种利用多语种语料库改进多义词嵌入的多视角贝叶斯非参数算法，这是第一个能有效利用多语种语料库进行多意词表示学习的方法，结果表明采用多语种语料库可显著提高性能。

Jun, 2017