学习我们可以的力量：从像素级交互生成多对象视频

Jun, 2023

学习我们可以的力量：从像素级交互生成多对象视频

Learn the Force We Can: Multi-Object Video Generation from Pixel-Level Interactions

Aram Davtyan, Paolo Favaro

TL;DR我们提出了一种新颖的无监督方法，可以根据单个帧和稀疏动作输入自回归地生成视频，该方法能够生成逼真的物体间相互作用，并能在只观察到它们在相关动作活动下运动时分离多个物体的动力学和幅度；我们的模型 YODA 能够移动物体而不用直接接触它们，定性和定量实验表明，YODA 在几个数据集上的视频生成效果不仅与现有领先工作相当，而且表现更优秀。

Abstract

We propose a novel unsupervised method to autoregressively generate videos from a single frame and a sparse motion input. Our trained mode

unsupervised method autoregressively generate videos sparse motion input object-to-object interactions yoda

发现论文，激发创造

通过视频预测进行物理交互的无监督学习

开发了一个动作条件视频预测模型，能够显式地模拟像素运动，从而学习关于物理对象运动的知识。同时，模型对对象外貌部分不变，可对以前未见过的对象进行推广。我们介绍了一个包含推动动作的 59,000 个机器人交互数据集，包括一个具有新颖对象的测试集。实验结果表明，与现有方法相比，我们的方法在定量和定性方面都能更准确地预测视频。

May, 2016

理解物体动态：交互式图像到视频合成

本文介绍了一种使用局部操纵来学习自然外观的全局关节，训练只需要移动物体的视频，而不需要了解物理场景底层的操纵。通过学习物体动力学的生成模型，响应用户互动，并了解相互关联的不同物体部位，该方法预测了静态图像和像素局部操纵后物体弯曲的时间变化，并实现了变形的局部交互控制，可针对不同类型的物体进行转移。与现有的视频预测相比，我们的模型不合成任意逼真的视频，而是提供对变形的局部交互控制。通过对不同物体的广泛实验，证明了我们的方法相比于常见的视频预测框架的有效性。

Jun, 2021

图像动画的一阶运动模型

本文描述了一种基于自监督学习的框架，可以将一个源图像中的对象根据驱动视频的运动进行动画处理，而不需要使用任何注释或有关特定对象的先前信息。使用一个经过训练的视频集合，我们的方法可以应用于此类对象的任何对象。

Feb, 2020

单帧布局生成多对象视频

该论文研究了视频生成，并着重简化生成条件。作者使用单个帧对象布局作为唯一条件，通过隐式神经表示和布局动态自我推理，提出了一种新的视频生成框架，能够合成全局场景和局部对象，实验结果表明，该模型比基准模型更加有效。

May, 2023

从单目视频中估计人 - 物交互的 3D 运动和力量

本文提出了一种从单个 RGB 视频自动重建与对象的人交互的 3D 运动的方法，估计人和物体的 3D 姿势，接触位置，被人类肢体激活的力和扭矩，方法主要集中在联合估计运动和动作力，运用大规模的轨迹优化问题，并且从输入视频自动识别出人与物体或地面之间的接触位置和时间，于真实数据集上验证了方法并展示了它在新的互联网视频数据集中的性能。

Apr, 2019

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

GenHowTo: 从教学视频中学习生成动作和状态转换

生成具有时间一致性和物理可行性的行为和物体状态转换的图像，利用视频数据集和条件扩散模型 GenHowTo，在各种对象和动作上展示出优秀的性能。

Dec, 2023

参与和交互：视频理解的高阶物体交互

本文提出了一种有效学习任意子对象之间的高阶相互作用的方法，用以改善细粒度视频理解的准确性，包括动作识别和视频字幕生成等领域，在两个大规模数据集 Kinetics 和 ActivityNet Captions 上取得了最先进的性能。

Nov, 2017

通过深度运动转换动画任意对象

介绍一种采用深度学习方法进行图像动画生成的框架，包含关键点检测模块，密集运动预测模块和运动转移模块，并证明了该方法在多个基准数据集上优于现有的图像动画和视频生成方法。

Dec, 2018