- CamCo:可控相机的三维一致的图像到视频生成
通过引入 CamCo,我们为图像到视频生成器提供了精确参数化的相机姿态输入,通过 Plücker 坐标,以增强视频生成的 3D 一致性和相机控制能力,同时有效生成可信的物体运动。
- MotionCtrl:统一灵活的视频生成运动控制器
该论文介绍了 MotionCtrl,这是一个用于视频生成的统一和灵活的运动控制器,通过有效和独立地控制相机运动和物体运动,实现更精细的运动控制和促进两种类型运动的灵活多样组合。
- CG-HOI: 接触引导的三维人体物体交互生成
我们提出了 CG-HOI,这是第一个解决从文本中生成动态 3D 人物 - 物体交互(HOIs)任务的方法。我们通过在训练和推断过程中显式地建模人体表面与物体几何之间的接触来引导人体和物体的运动,从而生成更真实、物理上可行的交互序列。
- 场景理解的分解神经表示
本研究提出了一种基于神经网络的场景表示方法,可以直接从 RGB-D 视频中学习物体级别的神经表示,并具有显式的对象运动编码和 / 或变形编码,该方法评估后表明具有高效性,可解释性和可编辑性。
- EMNLPCRIPP-VQA: 通过视频问答进行关于隐含物理属性的反事实推理
介绍了 CRIPP-VQA 数据集,该数据集包含具有物理性质的场景中物体运动的视频并配有各种类型的问题,强调了隐含属性问题和明确属性问题的巨大性能差距。
- CVPRADNet: 基于注意力引导的可变形卷积网络用于高动态范围成像
本研究提出一种基于注意力引导的变形卷积神经网络 ADNet,用于携带多帧高动态范围(HDR)成像,解决曝光过度、噪点和物体运动或摄像头抖动导致的图像不对准等问题,ADNet 在与先前方法的比较中表现出最先进的性能,在 NTIRE 2021 - 移动 SLAM: 弹性场景中全无监督深度学习
该研究提出了一种基于深度学习的方法来将视频分解为三维几何(摄像机和深度)、运动物体和它们的运动,其中没有监督。通过最小化合成图像和对应真实图像之间的误差,可以完全无监督地训练预测姿态和深度的深度网络,同时在图像的小区域内预测不同的姿态,实现 - AAAI通过解耦场景和运动来增强无监督视频表示学习
提出了一种解耦场景和物体运动信息的 DSM 方法,通过构造正负剪辑来加强模型对物体运动信息的关注,减少场景信息的影响,并在两项任务上进行实验,发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1%和 8.8 - CVPR面向在线多目标跟踪的统一目标运动和相似性模型
本论文提出了一种新的 MOT 框架,即 UMA,该框架将对象运动和亲和模型统一到一个网络中,通过多任务学习,将单目标跟踪和度量学习集成在一个统一的三元组网络中。实验结果表明,UMA 在几个 MOT 挑战基准上取得了有希望的性能。
- CVPR视频中的自监督物体运动和深度估计
本文提出了一种自监督学习框架,从视频中估算单个对象的运动和单眼深度,并将对象运动建模为六个自由度刚体变换;此外,该方法还使用实例分割掩码引入对象信息,并通过引入新的几何约束损失项消除运动预测的尺度歧义,实验结果表明,该框架在不需要外部注释的 - 无监督关键点学习用于指导类别条件视频预测
本文提出一种以单个图像和动作类别为条件的深度视频预测模型,通过检测物体关键点并将关键点序列预测为未来运动,然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点,并使用原始视频的检测关键点作为伪标签学习物体运动,实 - AAAI无监督单目视觉深度与自我运动学习结构与语义
我们提出了一种既利用结构又利用语义的方法,用于单目无监督学习深度和自我运动,模拟单个物体的运动并联合学习它们的三维运动矢量以及深度和自我运动,尤其适用于挑战性的动态场景,本文是 Casser 等人的扩展版本。
- 自然场景视频中的深度估计:来自未知相机的无监督单目深度学习
本研究提出了一种新的方法,使用相邻视频帧的一致性作为监督信号,同时从单目视频中学习深度预测、自运动、目标运动和相机内参数,并且首次实现对相机内参进行无监督学习,从而能够在任意未知来源的视频中提取准确的深度和运动信息。此方法在 Citysca - SE3-Nets: 使用深度神经网络学习刚体运动
SE3- Nets 是深度神经网络,旨在通过原始点云数据来建模和学习刚体运动。它学习分割影响物体部分并预测由应用力导致的运动的 SE3 变换,相较于传统的基于流的神经网络,它能够产生更加一致的运动预测结果。
- 基于语义分割和局部层的光流
利用静态语义场景分割技术提高光流方法中对于不同物体运动的预测准确度,并通过引入局部化分层模型来解决在复杂场景中估算光流的问题,达到了 KITTI-2015 流量基准测试中最低误差和更好的分割效果及流畅度。