无监督多语言词向量
提出了一种新的构建双语词向量嵌入的方法,该方法利用高资源源语言的向量空间作为训练低资源目标语言嵌入空间的起点,并通过使用源向量作为锚点,在训练过程中自动对齐向量空间,结果表明该方法不仅提高了双语词向量的质量和双语词汇词典归纳的性能,而且提高了目标语言的单语词相似性。
Oct, 2020
本论文研究无监督的跨语言词向量嵌入方法,发现这些方法在需要将资源匮乏和远距离语言进行跨语言词向量嵌入时难以产生有意义的结果,表现不如弱监督的方法。作者呼吁重新审视无监督 CLWE 方法的主要动机。
Sep, 2019
本文研究了声学词嵌入,探索了语义学声学词嵌入,并提出了一种基于多语种转移的语义学声学词嵌入方法,能够显著提高词汇相似性任务的表现,并且能够用于语义检索。
Jul, 2023
提出了一种用于无监督多词表达式改写的方法,通过使用单语料库和预训练语言模型(无需微调),不需要使用任何外部资源,例如词典,并在 SemEval 2022 成语语义文本相似度任务上表现优于所有无监督系统并与监督系统相媲美。
Jun, 2023
通过一种基于语言链的新方法构建多语言词嵌入(MWEs),该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言,从资源丰富的源语言开始,构建 MWEs。我们将半联合双语方法扩展到多种语言,以消除以前工作的主要弱点,即独立训练的单语词嵌入,并使目标语言围绕多语言空间进行锚定。我们在涉及 4 个非常低资源(<5M 令牌)和 4 个适度低资源(<50M)目标语言的 4 个语言家族的双语词典感应中评估了我们的方法,显示了两个类别的改进性能。此外,我们的分析揭示了中间语言的高质量嵌入的重要性,以及利用多语言空间中所有语言的锚点的重要性。
Nov, 2023
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
提出一种新的基于非平行文档对齐数据的学习双语词表示的模型,通过比较与多语言概率主题建模和分布式本地环境计数模型的方法,表明该模型可以从仅基于文档对齐可比数据学习。该模型可以用于双语词汇的词典项提取和多义词的单词翻译。
Sep, 2015
本文研究了将在多种语言中学习到的连续单词表示对齐到一个共同空间的问题,并提出了一种新的方案来保证映射的组合性,从而在维持直接单词翻译的竞争性表现的同时,实现了间接单词翻译的更好对齐。
Nov, 2018
本文讨论了 Bilingual Word Embeddings(BWEs)的 build 方法,并提出了两种有效的 unsupervised 方法:使用相同的单词作为种子词典和使用 Romanized 单词匹配。实验结果表明这些方法在远程语言对上工作良好,并且与使用高质量词典的监督方法有竞争力。在构建 BWEs 时,这些训练信号不应被忽略,即使对于远程语言也是如此。
May, 2022
本文提出了一种基于无监督学习的算法,通过分布匹配和最小化回译损失来优化两种语言单词嵌入空间之间的转换函数,使用神经网络计算 Sinkhorn 距离评估性能并在跨语言词汇相似度预测和双语词汇归纳等任务中具有强大的性能。
Sep, 2018