- EMNLP双向交互的半监督双语词典归纳
本文提出了一种新的半监督双语词表归纳框架,通过先验最优运输和双向词典更新等机制促进有标注和无标注数据之间的交互,在 MUSE 和 VecMap 数据集上表现出显著的提高,并通过消融研究证明了受监督信号和无监督对齐之间的双向交互对于整体性能的 - ACL无监督 BLI 的松弛匹配程序
本研究提出一种轻松的匹配程序以及双向对齐源和目标语言嵌入空间的方法,以提高无监督的双语词表感知任务的效果。在标准基准测试中,我们的方法明显优于以前的无监督方法。
- ACL为什么过拟合并不总是不好:将跨语言词向量改装成词典
该研究利用 CLWE 实现双语词典识别,提出引入修正策略来缓解因线性投影方法欠拟合训练字典而导致下游任务中推广性不足问题,并通过实验证明了该方法对训练字典的重要性及 BLI 评价不足的原因。
- EMNLPLNMap: 基于潜空间非线性映射的双语词典感应中的同构假设偏移
提出了一种新的半监督方法,通过两个独立训练的自编码器的潜在空间使用非线性映射,学习用于双语词汇识别的跨语言词嵌入表示,并在 15 种不同方向的语言对(包括资源丰富和低资源语言)的两个数据集上进行了广泛的实验,结果表明该方法优于现有模型。
- ICLR跨语言对齐与联合训练:比较研究和简单统一框架
本文研究了两种多语言文本学习方法,即 alignment 和 joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在 MUSE 双语词汇诱导(BLI)基准测试中性能优于现有方法,并在 CoN - 跨语境多义词上下文词嵌入映射
本文提出两种改进的解决方案,通过将上下文多义词嵌入视为噪声(去除)和通过生成聚类级别的平均锚嵌入以替换上下文多义词嵌入,提高了跨语言语境下上下文词嵌入对齐的微观性能,同时不会损害双语词汇表归纳任务的宏观性能;对于无监督对齐,我们的方法在双语 - EMNLP我们是否真的需要完全无监督跨语言嵌入?
本论文研究无监督的跨语言词向量嵌入方法,发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果,表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。
- ACL双语词典感应中的半监督非等距嵌入空间
该论文提出了一种半监督的双语词汇识别方法(BLISS),该方法使用了一个新的中枢过滤技术,可以放松两个嵌入空间同构假设,利用有限的对齐双语词汇表和更大的未对齐词汇表,实现了令人瞩目的效果。
- ACL无监督机器翻译实现双语词库归纳
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法 - ACL分析跨语言词嵌入映射的限制
本研究探讨了跨语言词嵌入的离线和联合学习方法,并发现在并行语料库下,联合学习可以更准确地解决不同语言间的相似性问题,尤其在双语词典诱导方面表现更优。因此,建议在跨语言嵌入研究中加强联合学习的研究。
- AAAI来自单语多模数据的无监督双语词典归纳
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
- 如何(正确地)评估跨语言词向量:关于强基线、比较分析及一些误解
本文基于多语言词嵌入(CLE)并从多个方面对 CLW 模型进行了全面评估,提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。
- EMNLP无监督的跨语言词向量空间转移
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
- 双语词表归纳的判别式潜变量模型
我们提出了一种新的判别式潜变量模型,用于双语词典归纳任务,该模型将 Haghighi 等人的二分匹配字典先验与最先进的基于嵌入的方法相结合。我们提供了在两个度量标准下六个语言对上的经验改进,并表明先前的工作可以被视为类似配置的潜变量模型,尽 - 无需双语语料库的跨语言词嵌入学习
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果