Bongard-HOI: 用于人 - 物互动视觉推理的几支学习基准评测
在这篇论文中,研究人员提出了一种新的方法来解决在少样本情况下检测人 - 物交互的问题,通过引入标签不确定的查询增强技术,以及伪标签生成技术和负样本支持集增强信息的方式,实现了在 Bongard-HOI 基准和 HICO-FS 数据集上的性能显著提升。
Dec, 2023
我们引入了 Bongard-OpenWorld,这是一个用于评估机器视觉领域的真实世界少样本推理的新基准。它继承了经典的 Bongard 问题的少样本概念归纳,并添加了两个新的挑战层:一是开放世界的自由形式概念,二是真实世界的图像。然而,目前的学习算法仍无法达到人类的准确度,我们希望 Bongard-OpenWorld 能帮助我们更好地理解当前视觉智能的局限性,并促进未来对具有较强少样本视觉推理能力的视觉智能体的研究。
Oct, 2023
通过提出 Bongard-LOGO 基准来评估人类概念学习和推理,我们展示了先前方法的不足之处,并讨论了适用于解决此类基准的一般视觉推理架构的研究方向。
Oct, 2020
现有的机器学习方法在解决博加德问题方面存在困难,不仅是因为神经网络缺乏人类化的符号规则找寻能力,更因为许多方法仅仅依靠从个体支持集中提取的信息而未整合整个支持集所包含的信息,而我们探索了多种简单的方法来考虑这种跨图像的上下文,并展示了相较之前的方法有着显著提高的结果,在博加德 - LOGO(75.3%)和博加德 - HOI(72.45%)上达到了新的最先进表现,并在原始博加德问题集上表现出强大的性能(60.84%)。
Sep, 2023
通过结构化文本知识,我们提出了一个系统且统一的框架 (RmLR) 来提高人物 - 物体交互检测,通过分析相互作用信息的损失并生成更全面的视觉表示,设计了更精细的句子 - 词级对齐和知识传递策略以有效解决多个交互和多个文本之间的匹配问题,进而提高了对交互的理解。实验结果表明我们的方法在公共基准测试上实现了最先进的性能,并进一步分析了我们方法的各个组成部分对效果的影响,为其功效提供了洞察。
Jul, 2023
人物 - 物体互动(HOI)检测是理解人类活动和视觉场景的重要组成部分。本研究通过引入 transformer-based 框架,重新组合不同 HOI 实例中的人物 - 物体对表示和互动表示,从而获得更丰富的上下文信息,提高知识的泛化能力,并实现一种简单而有效的方法,其在稀有 HOI 类别上表现出卓越的性能。
Aug, 2023
本研究提出了一种名为 KI2HOI 的新型框架,用于有效整合视觉语言模型的知识,从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式,设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外,创新的交互表示解码器通过交叉注意机制,有效地提取信息丰富的区域。为了处理低数据中的零样本学习,利用 CLIP 文本编码器的先验知识,为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明,我们的模型在各种零样本和全监督设置上优于以前的方法。
Mar, 2024
本论文提出了一种深度可视化组合学习 (VCL) 框架,通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题,共享不同 HOI 样本和图像之间的对象和谓词特征,并生成新的交互样本和新类型的 HOI,从而显著缓解了低样本或零样本的 HOI 检测问题。在 HICO-DET 和 V-COCO 数据集上的实验证明了该方法的有效性,并且在 HICO-DET 上优于最新的最优方法。
Jul, 2020
本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程,并介绍了一种交换元素技术来增加模型的鲁棒性,在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。
Nov, 2020
本文提出了一种名为交互图的图形交互推理模型,以推断人类和周围物体的相互作用,并构建了新的框架用于检测 HOIs,即 in-GraphNet,该模型能够有效地利用视觉目标间的交互语义,且不需要昂贵的注释,实验证明该方法在 V-COCO 和 HICO-DET 基准测试中比现有的 HOI 检测方法表现更优,基准线相对提高了 9.4% 和 15%。
Jul, 2020