基于关键词的图像搜索动态视觉消歧
本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法,该算法基于关联图像的视觉判别力自动筛选文本术语,并使用视觉和语义相似性将其分组成概念。 通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用,结果表明发现的概念不仅显著优于几个大型手动选择的概念集,而且在检索任务中也取得了最先进的性能。
Sep, 2015
本文介绍了一种利用神经网络模型Text2Vis在视觉特征空间中实现基于短文本描述信息的图像搜索方法,并通过针对文本和视觉损失函数的优化来提高搜索效率和精确度,并在MS-COCO数据集上进行了初步结果呈现。
Jun, 2016
本文探讨利用网络数据进行图像识别系统的训练,采用了直观n-grams模型来预测图片内容相关短语,同时开发出适用于连接图像和标题、零样本传输等方面的模型。
Dec, 2016
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本-视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
本文介绍了一种自我监督学习的方法,用于提取图像的特征向量,并将其组合用于图像搜索引擎的检索算法中。这种方法能有效地减少特征重叠,提高查询的精确性。
Feb, 2023
本研究提出采用多模态模型、排序学习以及基于知识的方法来进行词义消歧,并在 SemEval 2023 视觉词义消歧共享任务中荣获波斯语赛道的冠军以及多语言赛道的第三名。
Apr, 2023
通过多种方法,包括多模态检索、大型语言模型、问题回答以及学习排序模型等,本文深入研究了视觉词义消歧任务,以揭示其有趣的特性,为未来研究方向提供了有价值的启示。
Oct, 2023
我们提出了一个多模态检索框架,充分利用了预训练的视觉-语言模型、开放知识库和数据集,通过处理上下文与目标词的含义进行匹配、使用提示模板整合匹配的描述和其他文本信息进行图像检索、融合不同模态的上下文信息并用于预测,为词义消歧和多模态学习领域带来了深刻的见解。
Nov, 2023
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了10%的召回率改善。
Apr, 2024
本文研究解决了视觉词义消歧(VWSD)中的多模态数据整合问题,提出了ARPA架构,将大型语言模型和变换器的特性融合,通过自定义的图神经网络层学习数据中的复杂关系。实验证明,ARPA在复杂消歧场景中表现出色,有望重塑语言和视觉数据互动的标准。
Aug, 2024