结合静态词向量和上下文表示的双语词汇表归纳
在现代机器学习中,双语词汇诱导(BLI)的方法中,模型学习了语言对的嵌入空间之间的映射。最近,BLI 的检索与排序方法在该任务上取得了最先进的结果。然而,在资源匮乏的环境下,该问题仍然具有挑战性,因为数据非常稀缺。跨语言的词汇变异等因素使得该任务变得复杂。我们认为将额外的词汇信息纳入最新的检索与排序方法应该能够改善词汇诱导。我们在 XLING 上展示了我们提出方法的功效,在所有语言对中,平均提升了 2% 以上的性能,超过了先前的最佳结果。
Apr, 2024
使用最新一代的大型语言模型,我们系统地研究了双语词典诱导(BLI)任务,包括无监督的零样本诱导、少样本上下文诱导和标准的 BLI 模型微调,并证明了与当前 BLI 方法相比,这种方法在许多语言对上取得了最新的 BLI 成绩。
Oct, 2023
本文提出了一个稳健且有效的两阶段对比学习框架,旨在弥合不同语言之间的词汇鸿沟,其中运用了双语词典归纳、交叉语言映射等方式,从而成功提高了跨语言单词翻译的准确率。
Mar, 2022
该论文提出了一种半监督的双语词汇识别方法(BLISS),该方法使用了一个新的中枢过滤技术,可以放松两个嵌入空间同构假设,利用有限的对齐双语词汇表和更大的未对齐词汇表,实现了令人瞩目的效果。
Aug, 2019
本文提出了 BLICEr(BLI with Cross-Encoder Reranking)方法,是一个半监督的后处理重排序方法,用于任意预先计算过的 CLWE 空间,取得了基于两个标准 BLI 基准的新的最先进结果,涵盖了各种不同语言的宽谱。
Oct, 2022
介绍了一种适用于资源匮乏语言的无监督双语词汇表感知方法,该方法仅需要使用高资源语言单语 BERT 进行推理,并在印度次大陆的五种语言中首次发布自动生成的双语词汇表。
May, 2023
提出了一种新的半监督方法,通过两个独立训练的自编码器的潜在空间使用非线性映射,学习用于双语词汇识别的跨语言词嵌入表示,并在 15 种不同方向的语言对(包括资源丰富和低资源语言)的两个数据集上进行了广泛的实验,结果表明该方法优于现有模型。
Apr, 2020
本文介绍了一种将静态嵌入和上下文嵌入相结合的方法,通过提取 40 种语言的静态嵌入并使用 VecMap 校准来改善多语言表示,与此同时,应用新颖的持续预训练方法来进一步提高 XLM-R 的表示精度,并在多个复杂语义任务中展现出积极的效果。
Mar, 2022
本文提出了一种新的双语词嵌入方法 BilLex,通过公共词汇定义词对策略自动识别和传播精确细粒度单词对齐,从而实现双语之间的语义和知识迁移,并在词级和句子级翻译任务中显著优于先前的嵌入方法。
Jun, 2019
本文分析了使用双语词汇词典进行多语言自然语言理解和机器翻译任务的关键步骤:双语词汇识别(BLI)。研究了在德国及其两个方言,巴伐利亚语和阿勒曼尼亚语中进行 BLI 的挑战,使用预训练的大型语言模型(LLMs)的双语文本挖掘和词对齐。最终提供了两个评估数据集和结果分析。
Apr, 2023