VisualSparta:一种简单到可笑的加权词袋文本图像大规模搜索方法
SPARTA 是一种新颖的神经检索方法,其学习稀疏表示,可高效地实现反向索引进行可扩展的神经检索,通过在英语和中文数据集的各种开放域问答任务中实现先进的结果,同时具有人类可解释的表征和对性能和效率之间权衡的灵活控制。
Sep, 2020
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。
Mar, 2021
本文介绍了一种利用神经网络模型 Text2Vis 在视觉特征空间中实现基于短文本描述信息的图像搜索方法,并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度,并在 MS-COCO 数据集上进行了初步结果呈现。
Jun, 2016
本文研究了基于 Transformer 模型的跨模态图文检索问题,发现在大规模电商产品数据集上,相比于 RNN 等传统语言模型以及简单的平均词向量模型,基于 Transformer 的跨模态嵌入表现更加优秀。
May, 2020
研究了如何通过关键词提取,实现在线广告投放中通过短文本查询获得相关广告图片。借助广告图像查询日志,VisualTextRank 算法成功解决了该问题,它通过提取广告文本(或文本增强版本)中的关键词来生成广告图片查询,显著提高了图片搜索准确度达 11%。
Aug, 2021
本研究提出了基于 TextVQA 任务的一种新型空间感知自注意力模型,可以有效地推理图像中的文本内容,改进了 TextVQA 和 ST-VQA 两个关键指标,同时为视觉绑定的研究方向提供了新的思路。
Jul, 2020
我们介绍 SPARC (SPARse Fine-grained Contrastive Alignment),这是一种从图像 - 文本对中预训练更细粒度多模态表示的简单方法。SPARC 结合了精细化的序列损失和对全局图像和文本嵌入进行对比的损失,以同时编码全局和局部信息。我们对这种方法进行了全面评估,并显示在依赖于粗粒度信息的图像级任务(如分类)以及依赖于细粒度信息的区域级任务(如检索、目标检测和分割)上改善了性能。此外,SPARC 改善了模型的准确性和生成图像描述的能力。
Jan, 2024
本文提出了一种名为 SparTerm 的框架,旨在将预训练语言模型的深度知识转移至基于词袋法的稀疏表示,以提高其语义级匹配的表达能力,同时保持其效率、可解释性和准确性,并在 MSMARCO 数据集上获得了 state of the art 的排名性能。
Oct, 2020
通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
Apr, 2023
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021