基于关键词的图像搜索动态视觉消歧

May, 2019

基于关键词的图像搜索动态视觉消歧

Dynamically Visual Disambiguation of Keyword-based Image Search

Yazhou Yao, Zeren Sun, Fumin Shen, Li Liu, Limin Wang...

TL;DR通过自适应多模型框架解决视觉多义性问题，该框架由两个步骤组成：发现和动态选择文本查询，然后使用基于显著性引导的深度多实例学习网络去除异常值并学习用于视觉消歧的分类模型。

Abstract

Due to the high cost of manual annotation, learning directly from the web has attracted broad attention. One issue that limits their performance is the problem of visual polysemy. To address this issue, we present an adaptive →

发现论文，激发创造

从平行文本和视觉语料库中自动发现概念

本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法，该算法基于关联图像的视觉判别力自动筛选文本术语，并使用视觉和语义相似性将其分组成概念。通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用，结果表明发现的概念不仅显著优于几个大型手动选择的概念集，而且在检索任务中也取得了最先进的性能。

Sep, 2015

将文本描述转化为高层视觉表征

本文介绍了一种利用神经网络模型Text2Vis在视觉特征空间中实现基于短文本描述信息的图像搜索方法，并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度，并在MS-COCO数据集上进行了初步结果呈现。

Jun, 2016

从网络数据中学习视觉N-Grams

本文探讨利用网络数据进行图像识别系统的训练，采用了直观n-grams模型来预测图片内容相关短语，同时开发出适用于连接图像和标题、零样本传输等方面的模型。

Dec, 2016

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本-视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

面向视觉集合扩展的自监督多视角解缴技术

本文介绍了一种自我监督学习的方法，用于提取图像的特征向量，并将其组合用于图像搜索引擎的检索算法中。这种方法能有效地减少特征重叠，提高查询的精确性。

Feb, 2023

SemEval2023任务1中的OPI: 面向视觉词义消歧的图像-文本嵌入和多模态信息检索

本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧，并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。

Apr, 2023

大型语言模型和多模态检索在视觉词义消歧中的应用

通过多种方法，包括多模态检索、大型语言模型、问题回答以及学习排序模型等，本文深入研究了视觉词义消歧任务，以揭示其有趣的特性，为未来研究方向提供了有价值的启示。

Oct, 2023

香港科技大学在SemEval-2023任务1中的视觉词义消歧：通过上下文增强和视觉辅助

我们提出了一个多模态检索框架，充分利用了预训练的视觉-语言模型、开放知识库和数据集，通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测，为词义消歧和多模态学习领域带来了深刻的见解。

Nov, 2023

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了10%的召回率改善。

Apr, 2024

ARPA：一种新颖的混合模型，推动视觉词义消歧的进展，结合大型语言模型和变换器

本文研究解决了视觉词义消歧（VWSD）中的多模态数据整合问题，提出了ARPA架构，将大型语言模型和变换器的特性融合，通过自定义的图神经网络层学习数据中的复杂关系。实验证明，ARPA在复杂消歧场景中表现出色，有望重塑语言和视觉数据互动的标准。

Aug, 2024