- 基于知识聚合和蒸馏的主动目标检测
提出了一种基于知识集成和知识蒸馏的活动物体检测方法,通过提供关于物体相关的可行交互信息来改善活动物体检测,实现了当前最先进的性能。
- GLoD:图像生成中的全局上下文与局部细节组合
Global-Local Diffusion (GLoD) 是一个允许同时控制全局背景和局部细节的文本到图像生成框架,通过分配多个全局和局部提示,并利用预训练扩散模型的噪声进行去噪过程来实现。定量和定性评估表明,GLoD 能够有效生成复杂的 - Comp4D: 基于 LLM 的组合 4D 场景生成
使用大型语言模型 (LLMs) 以及预训练扩散模型,Comp4D 框架通过将文本提示分解为不同的实体并映射它们的轨迹,分别构建场景中的每个对象的四维 (4D) 表示,以获得卓越的 4D 内容生成能力,展现了更好的视觉质量、动作保真度和增强的 - 走向场景图预测
分析了视频中的时空场景图,提出了 SceneSayer 方法,通过对观察到的视频帧进行推理,模拟对象之间关系的演化,并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了 - 基于物理模型的刚体目标跟踪与 RGB-D 视频摩擦滤波
提出了一种从 RGB-D 图像中跟踪三维刚体物体并推断物体物理属性的新颖方法,借助可微分物理仿真作为状态转移模型,利用扩展卡尔曼滤波器模型接触和摩擦来估计真实的运动轨迹和摩擦系数,在合成图像序列和真实世界数据集上得到了验证和评估。
- STUPD: 用于空间和时间关系推理的合成数据集
提出了 Spatial and Temporal Understanding of Prepositions Dataset (STUPD) - 一个用于理解静态和动态空间关系的大规模视频数据集,旨在帮助模型在真实世界场景中更好地进行视觉关 - 引导注意力增强基于对象的下一步自我中心动作预测
该论文提出了一种新颖的方法,名为 GANO(Guided Attention for Next active Objects),该方法采用了在对象之间引导注意力机制和从视频剪辑中提取的时空特征,以增强运动和语境信息,并进一步解码面向对象和动 - 通过无监督学习图嵌入进行非特定物体的可用性分类
本文介绍了一种针对开放式交互集的类不可知对象的功能类别识别方法,该方法通过无监督学习认知对象互动之间的相似性,从而诱导对象功能群簇,为构建活动图提出了一种新的深度感知定性空间表示方法,通过这种方法可以获得相似功能的物体组。实验证明,该方法即 - ICCV点击移动:使用稀疏动作控制视频生成
该研究介绍了一个名为 Click to Move (C2M) 的新框架,可以通过简单的鼠标轨迹点控制合成视频的运动轨迹,并组合用户提供的运动信息和图像特征的 GCN 框架,从而在两个公开数据集上优于现有方法。
- IJCAI面向结构模型视频预测的可解释潜空间
我们提出了一种物体为中心的模型,使用图神经网络中的对比学习在潜在空间中预测未来的状态,并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用,而且能够提高物体位置的定位能力,且实验表明我们的模型在多个领域中具有显著 - CVPRX-MAN: 解释视频中多个异常源
文中提出了一种可以理解的概率异常检测器,可以通过高级概念描述其响应的原因,并且是首个将对象交互考虑在内并提供异常解释的任务。
- ICLR从视频中无监督地发现 3D 物理对象
本文研究了无监督的物体发现问题。引入了 POD-Net 模型,通过物理学原理,从视频中精确提取出各个物体的 3D 几何和位置,同时推断物体的属性,从而可以用于推断物理事件。
- CVPR利用场景图的结构化基于查询的图像检索
该论文介绍了一种基于场景图嵌入的方法,将视觉关系作为结构化查询用于图像检索,其在低频率对象检索上效果显著。
- EPIC-KITCHENS 数据集:收集、挑战和基准
本文介绍了 EPIC-KITCHENS 数据集的构建,该数据集具有大规模、种类多样的人们在厨房的日常行为记录,并且由多名来自不同国籍的参与者拍摄,其中所有视频都进行了密集注释和真实意图的讲述,并使用了多模态建模等基础线和新基础线进行了评估。
- CVPR运用知识蒸馏的时空图像处理技术进行视频字幕生成
本文提出一种基于时空图模型的视频字幕生成算法,利用物体间相互作用关系提供显式的视觉表征,通过一种对象感知的知识蒸馏机制,可以在不稳定的性能中实现对象的稳定预测。经过对两个基准测试的广泛实验,展示了我们方法的有效性和可解释性预测的竞争性能。
- MM对图像字幕生成所需的语言单词与视觉语义单位进行对齐
本文提出了一种结合图卷积网络(GCN)的视觉语义单元对象相互作用的图形语义和几何建模方法,利用上下文门控注意力模块将当前单词与视觉语义单元对齐,针对 MS-COCO 图像字幕数据集,与现有方法相比报告了更好的结果。
- CVPRH+O:一体化自我为中心的三维手部 - 物体姿态和交互识别
在该研究中,我们提出了一个统一框架,用于通过单个 RGB 图像并基于神经网络模型来共同估计 3D 手部和物体姿态、模拟它们的交互,以及识别物体和动作类别,整个模型可针对序列帧的输入进行优化。
- CVPR参与和交互:视频理解的高阶物体交互
本文提出了一种有效学习任意子对象之间的高阶相互作用的方法,用以改善细粒度视频理解的准确性,包括动作识别和视频字幕生成等领域,在两个大规模数据集 Kinetics 和 ActivityNet Captions 上取得了最先进的性能。
- 基于物体和交互的视频字幕
提出了利用视频中物体的交互来生成视频字幕的方法,并构建了 SINet-Caption 模型,可以在更精细的视频理解方面获得最先进的结果,同时在 ActivityNet Captions 数据集上进行了实验验证。
- ICCV越界:自我中心视角视频中对象交互的时间边界标注
通过研究三个虚拟数据集的标注者在标注时间边界上的一致性问题,我们提出了一种使用基于认知模型的 “Rubicon Boundaries” 来更加一致地标注时间边界的方法,并在一个公共数据集上取得了总准确度提升 4% 和 55% 类别准确度提升