- ACL通过矩阵补全学习翻译
双语词典感知是在没有双语平行语料的情况下学习词汇翻译的任务,我们将此任务建模为一个矩阵完成问题,并提出了一个有效且可扩展的框架来完成该矩阵。这种方法利用多种双语和单语信号,每种信号可能不完整或噪声干扰。我们的模型在高资源和低资源语言方面实现 - ACL双语词典归纳的词汇性质如何?
在现代机器学习中,双语词汇诱导(BLI)的方法中,模型学习了语言对的嵌入空间之间的映射。最近,BLI 的检索与排序方法在该任务上取得了最先进的结果。然而,在资源匮乏的环境下,该问题仍然具有挑战性,因为数据非常稀缺。跨语言的词汇变异等因素使得 - 自我增强上下文学习用于无监督词语翻译
最近的研究表明,尽管大型语言模型在少样本设置中展示了强大的词汇翻译或双语词典归纳能力,但在无监督场景中(特别是对于资源较少的语言),它们仍无法与 ' 传统 ' 的基于映射方法的性能相媲美。为了解决这一挑战,我们提出了自我增强的上下文学习(S - 使用锚点和一系列相关语言的多语言词嵌入:面向低资源语言
通过一种基于语言链的新方法构建多语言词嵌入(MWEs),该方法通过中间相关语言弥合远源和目标的差距。我们通过在语言链中逐个添加每种语言,从资源丰富的源语言开始,构建 MWEs。我们将半联合双语方法扩展到多种语言,以消除以前工作的主要弱点,即 - ACLProMap: 通过语言模型启发的有效双语词典归纳
ProMap 是一种创新的双语词汇感应方法,利用预训练的多语言模型,在富资源语言和低资源语言中均实现了最先进的结果,尤其在少样本情况下表现出强大的性能,为低资源语言翻译提供了有价值的工具。
- EMNLP关于使用大型语言模型进行双语词典归纳
使用最新一代的大型语言模型,我们系统地研究了双语词典诱导(BLI)任务,包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调,并证明了与当前 BLI 方法相比,这种方法在许多语言对上取得了最新的 BLI 成绩。
- 利用大语言模型实现低资源双语方言词典归纳
本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤:双语词汇识别(BLI)。研究了在德国及其两个方言,巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战,使用预训练的大型语言模型(LLMs)的双语文本挖掘和词对齐。最终提供 - 词嵌入空间的量化瓦瑟斯坦普鲁克斯对齐
提出一种基于投影的无监督量化 Wasserstein Procrustes(qWP)CLWE 模型,该模型利用源和目标单语嵌入空间的量化步骤来估计排列矩阵,以改善经验 OT 求解器的逼近质量,从而在计算成本固定的情况下取得了最先进的双语词典 - 领域不匹配并不总是阻止跨语言迁移学习
本文展示了一种简单的初始化方案,用于克服跨语言转移中不同领域的影响,通过在领域不匹配的语料库上预训练词和上下文嵌入,然后用于多个任务中,包括 UBLI、UNMT 和 SemEval 2017 跨语言词汇相似性任务,挑战了之前的研究论文并指出 - EMNLP使用交叉编码器重新排序提高双语词典归纳能力
本文提出了 BLICEr(BLI with Cross-Encoder Reranking)方法,是一个半监督的后处理重排序方法,用于任意预先计算过的 CLWE 空间,取得了基于两个标准 BLI 基准的新的最先进结果,涵盖了各种不同语言的宽 - EMNLPIsoVec:控制词嵌入空间的相对同构性
本文提出一种通过在 Skip-gram 损失函数中加入全局同构度量来提高单语词向量空间同构性的方法以改进词向量之间的跨语言映射,从而实现对通用数据条件下的双语词典诱导、领域不匹配和训练算法不匹配的提高。
- ACL低资源语言的同构跨语言嵌入
本论文提出了一种跨语言词嵌入学习框架,其综合利用相关高资源语言,以解决低资源语言跨语言表示学习中的几何结构相似度不足的问题,并通过双语词表感应和特征值相似性等多个语言对的实验验证,在新颖性和性能上均有所提升。
- ACL通过两阶段对比学习提高单词翻译
本文提出了一个稳健且有效的两阶段对比学习框架,旨在弥合不同语言之间的词汇鸿沟,其中运用了双语词典归纳、交叉语言映射等方式,从而成功提高了跨语言单词翻译的准确率。
- 分布式词嵌入的无监督对齐
本文提出一种基于随机优化的方法,利用概率嵌入技术实现了跨领域的编码对齐,可以成功用于无监督单语言嵌入的双语词汇表推断,且在无监督词汇翻译任务中表现优异。
- 面向广泛覆盖的命名实体资源:多元语言数据高效方法
使用平行语料库和神经音译模型提取多语言命名实体资源,对于下游任务:知识图谱扩充和双语词典感应非常有效。
- EMNLP词嵌入空间中欧式与基于图的双语词汇表归纳分析
本文研究了欧几里得空间和加权图上节点的情况下双语词汇诱导问题,并展示了结合两种方法的优势。
- ACL结合静态词向量和上下文表示的双语词汇表归纳
本研究提出了一种将静态词向量和上下文表示相结合的机制来改进双语词典归纳(BLI)的表现,结果表明在监督及无监督的基准测试环境下,我们的机制均可提高 3.2 和 3.1 个百分点左右的性能表现。
- ACL通过 L1 范数优化进行跨语言词嵌入细化
本文提出了一种基于曼哈顿距离的后处理方法来提高跨语言词向量的质量,并在十种不同的语言和语料库上进行了广泛的实验证明该方法可以提高词向量在双语词典归纳和自然语言推理任务中的性能。
- ACL超越离线映射:通过上下文锚定学习跨语言词向量
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和 XNLI 任务上取得了较好的结果,相比于传统的映射方法表现更好。
- COLING形态学感知的单词级翻译
我们提出一种新颖的形态学感知概率模型用于双语词典归纳,该模型以结构化方式联合建模词元翻译和屈折形态学。我们的模型利用词元是意义的关键词汇单位而屈折形态学提供额外句法信息的基本语言直觉。这种方法导致了显着的性能改进 - 在监督场景和弱监督场景