- AAAI使用物体引导交叉模态校准语义检测人物与物体互动
该研究旨在增强终端到终端的 HOI 检测模型,具体实现方法是利用基于对象的统计先验知识并生成跨模态感知的视觉和语义特征,建立了一种基于对象的跨模态校准网络(OCN),结果显示其更好的动词预测能力和更强的利用先验知识的方法比起基于并行检测和动 - ECCVACP++:人 - 物互动检测的动作共现先验
本文主要研究人和物体之间的交互检测问题,解决了数据集不平衡带来的影响,通过动作共现矩阵来学习先验知识,进而提高训练效果。
- ICCV利用场景图进行人 - 物互动检测
提出了一种利用场景图信息进行人 - 物交互(SG2HOI)检测的新方法,该方法通过全局背景信息和关系感知信息传递模块,利用图像中高级和语义的人物和物体关系,通过两种方式将场景图信息融入到 “人 - 物交互” 检测任务中,表现优于两个基准 H - 挖掘两阶段和单阶段 HOI 检测的优势
本文旨在探讨基于两阶段和单阶段方式的人 - 物交互检测方法各自的优点和缺点,并提出一种新的单阶段框架,该框架采用分离式的方法进行检测和分类,取得了明显的相对提升。
- MMGTNet: 指导 Transformer 网络用于检测人物 - 物体交互
文章介绍了 GTNet 模型,一种基于自注重的引导变换网络,它通过自注重将人和物体的视觉特征编码为空间上下文信息,从而增强了对人 - 物体交互的理解和检测。
- CVPR基于 Transformer 的端到端人 - 物交互检测
本文提出了一种基于 transformer 的编码器解码器框架,直接从图像中预测一组 <人,对象,交互> 三元组,通过此预测方法,我们的算法在不需要耗时的后处理的前提下,有效地利用图像中的固有语义关系,并实现了在对象检测后不到 1ms 的推 - CVPRGlance and Gaze: 推断动作感知点以实现一阶段人物 - 物体交互检测
提出了一种新的单阶段方法 Glance and Gaze Network(GGNet),通过快速的注视步骤和逐步的凝视步骤自适应地模拟操作感知点,聚合操作点的特征以预测人物和物体间的交互,使用硬负关注损失进行改进,此方法在 V-COCO 和 - CVPR基于可支配性迁移学习的人 - 物互动检测
引入了一种可用于检测新物体的人 - 物互动以及识别物体能力的 “可供性转移学习方法”,有效提高了对新物体的 HOI 检测表现,并能够通过已知关于物体能力的表示信息来推断新物体的能力,并在 HICO-DET 以及 HOI-COCO 两个数据集 - CVPR通过构建组合式学习检测人物与物体的交互
提出了一种基于组合学习的人与物体交互检测方法,使用对象生成器生成有效的对象表示,并结合动词和生成的对象创作新的 HOI 样本,以缓解 HOI 检测中的长尾问题, 实验表明此方法在稀有和未见 HOI 类别方面具有卓越的性能
- CVPR将 HOI 检测重构为自适应集合预测
本文提出一种基于 Adaptive Set Prediction 的 AS-Net 框架,通过多头注意力聚合查询集和全局上下文推理交互相关特征,同时使用实例感知注意模块将实例分支的特征引入交互分支,以实现更为准确高效的人物 - 物体交互检测 - CVPR人物 - 物体交互检测的可传递交互知识
本文研究了人物和物体间的交互行为,发现交互知识可以跨越不同的数据集,形成通用的交互知识网络,并且可以与任何 HOI 检测模型合作,进而提高 HOI 检测效率和准确性。通过使用实例和人体部位的特征信息,本文还提出了一种层次化的交互知识获取方法 - LIGHTEN:学习视频中基于图和分层时间网络的 HOI 交互
通过使用多粒度视觉特征,我们提出了一种名为 LIGHTEN 的分层方法来学习捕捉视频中多个维度的时空线索,从而实现人和对象之间的交互检测,并在 CAD-120 和 V-COCO 数据集中取得了最先进的结果和竞争结果,同时增加了对非 RGBD - 使用混合监督方法检测人与物体之间的交互
本文介绍了一种通过利用有强监督和弱监督数据相结合的方法来进行人物物品交互检测的流程,并介绍了一种交换元素技术来增加模型的鲁棒性,在 HICO-DET 数据集上的表现比同一监督模式下的最先进的弱监督和强监督方法表现更好。
- DIRV: 致密交互区域投票用于端到端的人 - 物交互检测
本文提出了一种基于交互区域的单阶段人 - 物交互检测方法,通过密集采样不同尺度下的交互区域捕捉到最关键的视觉特征,并引入了一种新的投票策略来弥补单个交互区域检测偏差,实验证明该方法在多个数据集上均取得了优于现有方法的效果。
- ECCVDRG: 用于人物 - 物体交互检测的双重关系图
本研究解决了人 - 物互动检测的难题,提出了一种利用抽象空间 - 语义表示来描述每个人 - 物对并通过双重关系图聚合场景的上下文信息的方法,该模型相对于现有的算法在两个大型基准数据集上表现出更加优良的结果。
- ECCV多义词破译网络用于鲁棒的人 - 物交互检测
本研究提出了一种新颖的词汇多义性辨析网络(PD-Net),旨在为人 - 物互动检测提供新的解决方案,同时构建了一个新的基准数据集。通过解密动词的视觉多义性,我们的方法证明在 HICO-DET,V-COCO 和 HOI-VP 数据库上的表现明 - ECCV人物 - 物体交互检测的可视化组成学习
本论文提出了一种深度可视化组合学习 (VCL) 框架,通过分解和组合 HOI 表示来解决 HOI 检测中的长尾分布问题,共享不同 HOI 样本和图像之间的对象和谓词特征,并生成新的交互样本和新类型的 HOI,从而显著缓解了低样本或零样本的 - ECCV利用动作共现先验检测人物 - 物体交互
本文介绍了一种基于动作共现矩阵的技术来解决人 - 物交互检测中存在的样本不均衡问题,并且证明了该方法在稀有分类方面的效果优于当前最先进技术,适用于 HICO-Det 和 V-COCO 两个数据库。
- IJCAI基于图的人 - 物交互检测交互式推理
本文提出了一种名为交互图的图形交互推理模型,以推断人类和周围物体的相互作用,并构建了新的框架用于检测 HOIs,即 in-GraphNet,该模型能够有效地利用视觉目标间的交互语义,且不需要昂贵的注释,实验证明该方法在 V-COCO 和 H - CVPR人 - 物交互检测中的稀有性诊断
本文主要探讨计算机视觉中的人 - 物体交互检测任务(HOI detection), 针对该任务的长尾可视化识别困境,对现有模型进行检测、识别和识别三步分析,研究发现交互信号(如遮挡和相对位置)会干扰检测和识别步骤,从而降低了识别准确性