- 利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
- 图像搜索的当代艺术:通过视觉语言模型进行迭代用户意图扩展
利用视觉语言模型的用户意图扩展框架改进了图像搜索引擎,提供更准确和满意的搜索结果。该框架包括两个阶段的过程,即解析阶段和逻辑组合阶段,并允许用户进行灵活的上下文交互以进一步指定或调整搜索意图。研究结果表明,该框架显著提高了用户的图像搜索体验 - 在电子商务中利用 Transformer 增强图像搜索的多模态商品嵌入
在过去的十年中,人们在电子商务应用的图像搜索领域取得了重大进展。本文报告了多模式物品嵌入模型(MIEM)的设计和部署,以解决传统图像检索模型在商品多图像处理上的限制和存储负担,从而提高检索结果的准确性。在 Shopee 电子商务平台中部署后 - 图像搜索中的公平性:职业定型在图片检索中的研究及其去偏见化方法
本研究聚焦于关键词图像搜索领域中的偏见和公平性问题,评估并减轻搜索结果中的性别职业刻板印象。通过使用开源和专有的 API 来确定图像的性别,我们提出了一种考虑到与指定关键词的相关性和公平性的公平感知排序算法,并在实验中证明其显著地提高了公平 - 排名损失和隔离学习用于降低组织病理学图像搜索偏差
本文提出两个新思想来提高医疗图像搜索性能,采用排名损失函数引导特征提取,将表示学习定制为图像搜索而不是学习类标签,同时引入了隔离学习的概念来增强特征提取的泛化性能,并通过最大的公共数据集实现验证,实验结果与现有技术相比具有更好的表现。
- ACLCOFAR: 图像搜索中的常识和事实推理
通过 KRAMT 框架结合图像与查询语言以期在图像搜索中启用常识和事实推理,其检索性能在新数据集 COFAR 上得到评估与相关方法进行比较。
- AAAICAISE:用于图像搜索和编辑的对话代理
提出了一个基于自动化对话代理的图像搜索和编辑数据集(CAISE),该数据集提供了包括代理机器人和用户之间的对话、编辑的过程和结果记录、和执行命令等。使用自定义搜索和编辑工具,辅助标注工人与用户进行搜索和编辑对话,并记录这些工具产生的功能。我 - EMNLP图像搜索中的性别偏差问题:性别中性查询真的是性别中性吗?
本文研究互联网搜索中出现的性别偏见,尤其是在图像搜索中的性别失衡问题。为此,我们提出了两种消除偏见的方法:采用处理中的合理采样方法解决训练模型时的性别失衡问题,以及采用基于互信息的后处理特征裁剪方法来消除预训练模型的多模式表示中的偏见。通过 - ECCV基于注意力机制的查询扩展学习
提出一种基于自我注意力机制的模型,以更高的准确性进行查询扩展,克服现有方法的缺陷。
- SIGIR学习搜索查询的颜色表示
本文探讨了如何在图像搜索引擎中应用颜色作为匹配过程的一个特征,提出了一种基于循环神经网络及历史点击数据学习查询 - 图像颜色分布表示并结合交叉模式下的匹配模型,并在用户反馈中验证其有效性。
- 深度激活显著区域用于实例搜索
该论文提出了一种简单而有效的实例级特征表示法,解决了类非特定实例定位和独特特征表示的问题,并通过平均池化检测到的实例区域上的特征图来产生独特特征表示,进而提高了实例搜索和基于内容的图像搜索的性能。
- 利用人工智能搜索归档的组织病理学图像进行全癌种诊断共识
本研究证实数字病理学结合人工智能可以用于疾病诊断以及提高诊断准确率并通过相似案例的可视化检查和计算机多数表决来帮助病理医生。在该研究中,通过搜索最大的公共存储库之一,本文显示出当足够的可搜索案例数量可用于每种癌症亚型时,计算机一致性似乎可以 - EMNLP基于多头注意力的多元化地位学习跨语言多模态表示
本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型,采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐,从而学习到更好的视觉 - 语义嵌入空间,并在多个任务上展现了比其他方法更显著的性能提升。
- CVPRLiveSketch:基于查询扰动的引导式素描视觉搜索
LiveSketch 是一种使用手绘查询来搜索大型图像集合的新算法,其使用三元组 convnet 架构和反向传播来实现搜索,并利用实时聚类来识别潜在搜索意图和目标。
- 使用多语言文本进行图像搜索:图像和文本之间的跨模态学习方法
本文提出一个使用多语言嵌入词汇表达图像语义信息的框架,将图像和文本嵌入到一个唯一的分布向量空间中,从而使得我们可以使用描述图像内容的文本查询来搜索图像,同时也可以使用图像相似性,我们使用实证研究证明了该方法的效率。
- 组织病理学相似图像搜索:SMILY
本文介绍了基于深度学习的反向图像搜索工具 SMILY,可以在组织病理学图像数据库中提高搜索效率,且能够正确检索具有类似组织学特征,器官位点和前列腺癌 Gleason 评分的搜索结果。
- 图像摘要中的隐式多样性
该研究提出了一种新的算法来缓解图像搜索结果中的偏见和缺乏多样性,通过选择一组具有多样性的可视控制图像,有效实现隐式多样性,测试结果显示,该算法在保持准确度的同时提高了图像搜索结果的可见多样性。
- MME$^2$BoWs:一种基于深度卷积神经网络的端到端词袋模型
本文提出了一种基于深度卷积神经网络的端到端 BoWs 模型 (E$^2$BoWs),并介绍了一种新的学习算法来增强生成的 E$^2$BoWs 模型的稀疏性,以进一步确保时间和内存效率。在多个图像搜索数据集上的实验结果表明,与最近的基于深度学 - EMNLP学习多语言多模态表示的图像枢转
本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型,其目的是提高多语言版本的图像搜索和理解,在图像描述排名及语义文本相似度方面实现了最先进的性能。
- MM图像检索的基于选择性深度卷积特征
本文提出了一种新颖的框架用于图像检索,通过采用各种掩码方案从卷积特征中选择代表性的子集来解决爆炸性问题,并采用最新的嵌入和聚合方法进一步提高特征可区分性,从而达到了最先进的检索准确度。