使用最新一代的大型语言模型,我们系统地研究了双语词典诱导(BLI)任务,包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调,并证明了与当前 BLI 方法相比,这种方法在许多语言对上取得了最新的 BLI 成绩。
Oct, 2023
本研究提出了一种将静态词向量和上下文表示相结合的机制来改进双语词典归纳(BLI)的表现,结果表明在监督及无监督的基准测试环境下,我们的机制均可提高 3.2 和 3.1 个百分点左右的性能表现。
Jun, 2021
本文提出了 BLICEr(BLI with Cross-Encoder Reranking)方法,是一个半监督的后处理重排序方法,用于任意预先计算过的 CLWE 空间,取得了基于两个标准 BLI 基准的新的最先进结果,涵盖了各种不同语言的宽谱。
Oct, 2022
本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤:双语词汇识别(BLI)。研究了在德国及其两个方言,巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战,使用预训练的大型语言模型(LLMs)的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。
Apr, 2023
在现代机器学习中,双语词汇诱导(BLI)的方法中,模型学习了语言对的嵌入空间之间的映射。最近,BLI 的检索与排序方法在该任务上取得了最先进的结果。然而,在资源匮乏的环境下,该问题仍然具有挑战性,因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效,在所有语言对中,平均提升了 2% 以上的性能,超过了先前的最佳结果。
Apr, 2024
本文提出了一种多级对比学习(ML-CTL)框架,使用翻译后的平行数据并显式地整合每对平行句子的单词级信息进行对比学习,以进一步提高预训练模型的跨语言能力。其中,采用了交叉零噪声对比估计(CZ-NCE)损失来减轻训练过程中小批量大小的浮点误差的影响。该方法显著提高了基础模型(mBERT)的跨语言迁移能力,并在 Xtreme 基准测试的多个零 - shot 跨语言下游任务中表现优异。
Feb, 2022
本文基于多语言词嵌入(CLE)并从多个方面对 CLW 模型进行了全面评估,提出了优化 CLE 模型的方法及对现有基线进行重新评估的重要性。
Feb, 2019
本文将多语言预训练模型转化为多语言句子编码器,通过对句子编码器进行探索,采用基于对比学习的简单而高效的方法,揭示了句子编码器隐含的跨语言词汇知识,进而提供了一种利用跨语言词汇的工具。
Apr, 2022
本文提出了一种新的半监督双语词表归纳框架,通过先验最优运输和双向词典更新等机制促进有标注和无标注数据之间的交互,在 MUSE 和 VecMap 数据集上表现出显著的提高,并通过消融研究证明了受监督信号和无监督对齐之间的双向交互对于整体性能的提高起到了作用。
Oct, 2020
本研究提出一种轻松的匹配程序以及双向对齐源和目标语言嵌入空间的方法,以提高无监督的双语词表感知任务的效果。在标准基准测试中,我们的方法明显优于以前的无监督方法。