教新狗古技：利用零 - shot 学习复苏多语言检索

Dec, 2019

教新狗古技：利用零 - shot 学习复苏多语言检索

Teaching a New Dog Old Tricks: Resurrecting Multilingual Retrieval Using Zero-shot Learning

Sean MacAvaney, Luca Soldaini, Nazli Goharian

TL;DR本文旨在解决搜索引擎在非英语语言中的信息检索问题，并提出了基于预训练的多语言语言模型的检索系统，能有效提高阿拉伯语，普通话和西班牙语的检索准确性，并通过在英语数据集中增加目标语言样例来改进性能。

Abstract

While billions of non-English speaking users rely on search engines every day, the problem of ad-hoc information retrieval is rarely studied for non-English languages. This is primarily due to a lack of data set that are suitable to train →

ad-hoc information retrieval multilingual language models zero-shot setting ranking algorithms unsupervised retrieval techniques

发现论文，激发创造

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

零样本跨语言图像检索与标记

本论文探讨采用跨语言预训练的零样本方法来学习多模态表示，提出建立跨语言图像检索模型的简单实用方法，并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集（XTD10）的零样本模型性能，证明跨语言模型可用于零样本的下游任务，如多语言图像标记。

Sep, 2021

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020

基于语言模型检索的多语言少样本学习

本文在多语言和交叉语言设置下，通过全面研究检索语义相似的少样本示例的方法来提升 Transformer 模型在自然语言理解任务中的性能。结果表明该方法在英语以外的单语言和交叉语言任务中均优于随机抽样。

Jun, 2023

重审零样本跨语言转移中英语的首要地位

本文对于使用不同语言进行零样本跨语言转移的多语言模型进行了研究，发现高资源语言如德语和俄语在多数情况下能够更加有效地进行迁移学习，即使训练集是自动从英语翻译而来。同时，该结论对于多语言零样本系统有着重要影响，并且应该指导未来的基准设计。

Jun, 2021

通过人工混合数据训练来提升零样本跨语言检索

本研究探讨了如何将零 - shot 模型从高资源语言（一般是英语）迁移到其他语言，结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此，我们提出利用双语词典生成人工混合语言的数据来训练排名模型，我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验，最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明，使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。

May, 2023

多语言语言表示模型跨语言转移学习实现零样本阅读理解

本文系统性地探讨了在多语料库上预训练语言表示模型的情况下，零 - shot 跨语言转移学习在阅读理解任务中的应用，并通过实验结果表明，使用预训练的语言表示模型可以实现零 - shot 学习，无需将源语言数据转换为目标语言，因为这样做甚至会降低模型的性能。研究还进一步探讨了模型在零 - shot 情况下的学习效果。

Sep, 2019

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023

多语言多模态预训练用于零样本跨语言视觉语言模型迁移

本文研究了视觉语言模型的零样本跨语言迁移。我们专注于多语言文本到视频搜索，并提出了一种基于 Transformer 模型的方法来学习上下文相关的多语言多模态嵌入。在零样本设置下，我们在用非英语句子查询多语言文本 - 视频模型时发现性能显著下降。为了解决这个问题，我们引入了多语言多模态预训练策略，并收集了一个新的多语言教学视频数据集（MultiHowTo100M）进行预训练。在 VTT 上的实验表明，我们的方法显著提高了非英语语言的视频搜索效果，而无需额外的注释。此外，当有多语言注释时，我们的方法在 VTT 和 VATEX 上的多语言文本到视频搜索以及 Multi30K 上的多语言文本到图像搜索方面大幅优于最近的基准线。

Mar, 2021