VisualSparta：一种简单到可笑的加权词袋文本图像大规模搜索方法

ACLJan, 2021

VisualSparta：一种简单到可笑的加权词袋文本图像大规模搜索方法

VisualSparta: An Embarrassingly Simple Approach to Large-scale Text-to-Image Search with Weighted Bag-of-words

Xiaopeng Lu, Tiancheng Zhao, Kyusong Lee

TL;DR本文介绍了一种名为 VisualSparta 的基于稀疏变换匹配的 Transformer 模型，旨在实现跨模态信息检索领域中的文本检索图像任务，具有较高准确性和效率，可在大规模数据集中实现实时搜索。

Abstract

text-to-image retrieval is an essential task in cross-modal information retrieval, i.e., retrieving relevant images from a large and unlabelled dataset given textual queries. In this paper, we propose visualsparta

text-to-image retrieval visualsparta sparse transformer matching real-time searching large-scale datasets

发现论文，激发创造

SPARTA: 基于稀疏变换器匹配检索的高效开域问答

SPARTA 是一种新颖的神经检索方法，其学习稀疏表示，可高效地实现反向索引进行可扩展的神经检索，通过在英语和中文数据集的各种开放域问答任务中实现先进的结果，同时具有人类可解释的表征和对性能和效率之间权衡的灵活控制。

Sep, 2020

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

将文本描述转化为高层视觉表征

本文介绍了一种利用神经网络模型 Text2Vis 在视觉特征空间中实现基于短文本描述信息的图像搜索方法，并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度，并在 MS-COCO 数据集上进行了初步结果呈现。

Jun, 2016

T-VSE: 基于 Transformer 的视觉语义嵌入

本文研究了基于 Transformer 模型的跨模态图文检索问题，发现在大规模电商产品数据集上，相比于 RNN 等传统语言模型以及简单的平均词向量模型，基于 Transformer 的跨模态嵌入表现更加优秀。

May, 2020

VisualTextRank：基于图结构无监督内容提取技术，用于自动化广告文本到图像搜索

研究了如何通过关键词提取，实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志，VisualTextRank 算法成功解决了该问题，它通过提取广告文本（或文本增强版本）中的关键词来生成广告图片查询，显著提高了图片搜索准确度达 11%。

Aug, 2021

面向 TextVQA 的空间感知多模态 Transformer

本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型，可以有效地推理图像中的文本内容，改进了 TextVQA 和 ST-VQA 两个关键指标，同时为视觉绑定的研究方向提供了新的思路。

Jul, 2020

提升图像 - 文本预训练中的细粒度理解

我们介绍 SPARC (SPARse Fine-grained Contrastive Alignment)，这是一种从图像 - 文本对中预训练更细粒度多模态表示的简单方法。SPARC 结合了精细化的序列损失和对全局图像和文本嵌入进行对比的损失，以同时编码全局和局部信息。我们对这种方法进行了全面评估，并显示在依赖于粗粒度信息的图像级任务（如分类）以及依赖于细粒度信息的区域级任务（如检索、目标检测和分割）上改善了性能。此外，SPARC 改善了模型的准确性和生成图像描述的能力。

Jan, 2024

SparTerm：学习基于词项的稀疏表示以实现快速文本检索

本文提出了一种名为 SparTerm 的框架，旨在将预训练语言模型的深度知识转移至基于词袋法的稀疏表示，以提高其语义级匹配的表达能力，同时保持其效率、可解释性和准确性，并在 MSMARCO 数据集上获得了 state of the art 的排名性能。

Oct, 2020

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

快速检索、智能重新排名：协作和联合方法改进跨模态检索

本文提出了一种基于 fine-tuning 的框架，将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型，并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器，实现更准确、更高效的跨模态检索。

Mar, 2021