跨语境上下文短语检索
本文提出了一种从无标注例句中提取短语表示以实现跨语言短语检索的方法 XPR,并创建了一个包含 65K 双语短语对和 4.2M 例句的大规模跨语言短语检索数据集。实验结果表明,XPR 表现优于利用词级或句级表示的基线。XPR 还显示了令人印象深刻的零 - shot 迁移性,使模型能够在训练期间执行未见过的语言对的检索。
Apr, 2022
本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP),通过学习建模句子级上下文关系来学习句子表示,从而使句子配对对齐,并使用语言特定的存储器库和非对称批标准化操作来防止模型崩溃和信息泄漏,在不使用双语数据的情况下,在多语言检索任务 Tatoeba 上实现了新的最佳结果,在跨语言查询 - 段落检索任务 XOR Retrieve 和 Mr.TYDI 中,该模型在所有使用双语数据的预训练模型中在零样本和监督设置 (both zero-shot and supervised setting) 中都取得了两个最新成果。
Jun, 2022
本研究中,我们发现对自己的编码器输出进行挖掘,可以进一步提高多语言预训练语言模型的跨语言对齐能力;利用这一发现,我们提出了一种新方法 -- 交叉语言检索用于迭代自监督训练 (CRISS),并取得了 9 种语言方向的最新无监督机器翻译结果以及 16 种语言的 Tatoeba 句子检索任务的最高准确率的平均提升为 21.5%,同时相对于 mBART,CRISS 在监督机器翻译下游任务上平均提高了 1.8 BLEU。
Jun, 2020
通过利用跨语种检索增强的上下文学习(CREA-ICL)方法,从高资源语言中提取语义相似的提示,以改善多语言预训练语言模型(MPLMs)在各种任务中的零样本性能,本文研究了大型语言模型在低资源语言中上下文学习(ICL)性能的限制和挑战,并对检索增强的上下文学习在分类和生成任务中的性能动态提供了洞见。
Nov, 2023
使用高资源语言作为提示,通过检索从而增强上下文,提出的 PARC 管道,可以提高低资源语言的零 - shot 表现。在对涵盖 6 个语言家族的 10 个低资源语言进行多语言并行测试集时,PARC 可以在未标记的设置中提高 5.1%,在标记的设置中提高 16.3%。同时还比微调基线的效果提高了 3.7%。
Dec, 2022
提出了一种简单但有效的 1 对 K 对比学习方法,平等对待每种语言,消除错误传播和优化偏差的问题,并提出了一个新的评估指标 Mean Rank Variance(MRV),来反映每个实例内不同语言之间的排名不一致。在四个 CCR 数据集上进行的广泛实验表明,我们的方法在小规模预训练数据上提高了召回率和 MRV,并取得了新的最新成果。
Jun, 2024
通过跨语言检索增强的方法,我们的研究论文提出了一种创新的方法,利用高资源语言中语义相似的提示来提高多语言预训练语言模型在孟加拉语任务上的性能。详细评估表明,跨语言检索增强的提示对于多语言预训练语言模型的性能有稳定的提升作用。
Nov, 2023
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
本文探讨在跨境电商中,通过跨语言信息检索的方式,将源语言中商品属性集与目标语言中的诱人描述相匹配的问题。我们人工收集了一个新的、高质量的配对数据集,通过该数据集构建了一个新的跨语言匹配网络(CLMN),在 BERT 预训练模型的基础上增强了上下文相关的跨语言映射。实验结果表明,我们的 CLMN 处理这个具有挑战性的任务的效果非常显著,而针对 BERT 中上下文相关的跨语言映射则对性能提升明显。
May, 2020