Oct, 2023

通过文本图像传播模型进行零样本视频编辑

TL;DR一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架,通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑,实现了无需训练的时间一致的多属性视频编辑,并在编辑准确度和帧一致性方面表现优于其他基准方法。