- 基于语义的人形机器视觉任务的主动感知技术与视点焦点传感器
通过使用语义信息,可以在场景探索和视觉搜索任务中有效地完成视觉任务,从而证明了语义模型在视觉任务中的优越性。
- V*: 多模态 LLMs 中的核心机制:引导的视觉搜索
我们引入了一个带有世界知识的低光磁单模型 (LLM) 引导的视觉搜索机制,用于处理高分辨率和视觉拥挤的图像,并结合 MLLM 来增强协同推理、情境理解和对特定视觉元素的精确定位,从而提供了一种新的 MLLM 元架构 (SEAL)。
- 视觉搜索中的串行和并行处理的计算模型
通过对视觉搜索中的各种现象的研究,本文解析了人类视觉表征和过程的本质,并提出了一种计算模型(CASPER),用于解释视觉搜索中的一系列现象,其中包括关系搜索。通过实验证明 CASPER 模型可以解释关系刺激中搜索功能的负加速度,并揭示视觉系 - 眼动与低延迟脉冲神经网络的高能效视觉搜索
通过实验证明人类视觉搜索行为并建立了第一个基于 SNN 的视觉搜索模型,该模型结合了人工视网膜结构与尖峰特征提取、记忆和注视决策模块,通过群体编码实现快速高效的注视决策,能够学习类似人类或接近最佳的凝视策略,在搜索速度和准确性方面优于人类, - 基于目标和上下文感知 Transformer 的高效零样本视觉检索
该研究提出了一种零样本深度学习架构 TCT(Target and Context-aware Transformer),结合目标和上下文信息进行图像搜索,表现出类人的搜索效率,在具有挑战性的视觉搜索任务中超越最先进的模型,并在具有不协调上下 - 使用卷积神经网络预测视觉搜索过程中的视觉关注和干扰
本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰,第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图,第二种方法基于目标对象预测干扰器和目标。
- CVPRV$^2$L:将视觉和视觉语言模型应用于大规模产品检索
本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。 - CVPR可切换表示学习框架及自兼容性
本研究提出了一种具有自兼容性的 Switchable 表征学习框架,并使用不确定性估计动态调整子模型的优先级,最终在评估数据集上获得了最先进的性能。
- CVPR可持续学习与反向一致特征嵌入的视觉搜索
本文介绍了一种基于 continual learning 方法的视觉搜索模型,它可以不断更新模型以处理增量式的图库集,同时不会影响模型的特征空间并且可以适用于新的图像类别。
- 基于人工智能的时尚社交电商技术
本文介绍了一种采用深度学习技术的 AI 驱动时尚社交网络服务,包括时尚电子商务,人们可以分享和浏览他们的 OOTD 照片,而 AI 分析它们并建议类似的风格 OOTD 和相关产品。
- CVPReProduct: 应对产品识别挑战的百万级视觉搜索基准
本文介绍了 eProduct 数据集的创建,该数据集包含 250 万个产品图片。eProduct 可作为一个训练集和评估集来加速自监督学习、弱监督学习和多模态学习等领域的发展,特别是针对细粒度识别问题,如视觉搜索。通过基于此数据集训练的基线 - CVPR兼容性敏感的异构视觉搜索
本篇研究针对资源限制下的视觉搜索问题,提出了一种通过生成来自大型模型的画廊嵌入和使用紧凑模型提取查询嵌入的方法来减轻准确性和效率之间难以解决的关系,并通过修改参数和架构来实现嵌入之间的兼容性,从而实现了 80 倍和 23 倍的成本降低,而在 - KDD阿里巴巴的视觉搜索
本文介绍了阿里巴巴的大规模视觉搜索算法和系统架构,并探讨了在电商环境下如何处理异构的图像数据,在大数据更新中如何处理大规模索引,如何在无大量人工注释的情况下训练有效的深度模型,以及如何通过考虑内容质量来提高用户参与度,最后将所有阶段应用于一 - 跨模型兼容性的统一表示学习
本研究提出一种统一的表示学习框架,解决了在视觉搜索应用中交叉模型兼容性(CMC)问题,通过引入轻量级的 RBT 模块和新的训练方案来优化嵌入空间,该方案在各种具有挑战性的视觉搜索情景下,包括面部识别和个人重新识别,均优于先前的方法。
- 基于视觉搜索与文本反馈的模态无关注意力融合
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出 - KDDShop The Look: 在 Pinterest 上建立大规模视觉购物系统
该研究以 Pinterest 的 Shop The Look 为例,介绍了建立一个基于视觉搜索的在线购物系统的核心技术、服务基础设施、数据标注方法和用户体验评估,并通过离线评估、人类相关性判断和在线 A/B 实验,实现了多方面的性能提升,包 - CVPR使用逆向强化学习预测目标导向的人类注意力
本文提出了第一个反向强化学习模型 (IRL) 模型,使用动态的上下文信念地图来学习人类视觉搜索中的内部奖励函数和策略,并且为了训练和评估我们的 IRL 模型,我们创建了 COCO-Search18 数据集,通过提取学习出的奖励地图,可以了解 - CVPR利用 GAN 和孪生网络从真实照片匹配服装的 PoshakNet 框架
提出使用基于 GAN 和 Siamese 网络的视觉搜索框架,可以从输入的照片中提取被穿着的服装并与数据集中的服装进行匹配,以帮助在线购物客户更好地搜索商品。
- ICCV基于高阶正则化器的深度嵌入度量学习 (HORDE)
通过分布感知的正则化方法 [HORDE] 解决了特征散乱的问题,保证了深度特征在特征空间中的局部性,并在四个数据集上取得了最佳结果。
- KDD在 Pinterest 上学习视觉搜索的统一嵌入
该论文描述了 Pinterest 如何使用多任务深度度量学习系统来学习单个统一的图像嵌入,以帮助用户浏览相关内容和搜索精确产品,还讨论了处理来自不同领域的图像的挑战,并通过离线指标、用户研究和在线 A/B 实验的全面评估证明,他们提出的统一