通过观看电影学习切割技能

ICCVAug, 2021

Learning to Cut by Watching Movies

Alejandro Pardo, Fabian Caba Heilbron, Juan León Alcázar, Ali Thabet, Bernard Ghanem

TL;DR本文旨在通过对已经编辑过的视频中提取的音像模式来学习判断真实和人工切割差异，提高创作效率，结果表明我们的模型比随机和基准线表现更好。

Abstract

video content creation keeps growing at an incredible pace; yet, creating engaging stories remains challenging and requires non-trivial video editing expertise. Many video editing components are astonishingly hard to automate primarily due to the lack of raw video materials. This paper

computational video editing audiovisual patterns cut generation contrastive learning video content creation

发现论文，激发创造

剪切和拼贴：主题驱动的视频编辑与注意力控制

本文提出了一种名为剪贴的创新框架，用于根据文本提示和额外参考图像进行现实语义视频编辑。

Nov, 2023

从预告片到剧情：从电影中高效学习的方法

该研究通过设计视觉模块和时间分析模块，提出了一种从电影数据中学习视觉模型的替代方法，可以通过预告片学习视觉模块，通过电影数据学习时间分析模块，大大减少学习成本的同时还能够保留长期的时间结构和有效的视觉特征。

Jun, 2018

Edit3K: 视频编辑组件的通用表示学习

该研究聚焦于理解主要的视频制作流程，包括六种主要的编辑组件：视频效果、动画、过渡、滤镜、贴纸和文本。该论文介绍了第一个用于视频创作的大规模数据集，探索了编辑组件的视觉表示方法，并提出了一种新的学习方法，能够更好地学习与编辑组件相关的视觉特征。研究结果表明，该方法在编辑组件的检索和识别方面表现优于其他替代解决方案，并且在过渡推荐任务上取得了最先进的结果。

Mar, 2024

使用文本数据的强化学习快进视频

本文提出一种基于强化学习的方法来加速教学视频，该方法可以自适应地选择不相关的帧以缩小输入视频，同时使用 Visually-guided Document Attention Network（VDAN）产生高度判别的嵌入空间来表示文本和视觉数据，实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。

Mar, 2020

RealCraft：关注控制：零样本长视频编辑的解决方案

在这篇论文中，我们提出了一种基于注意力控制的方法，名为 RealCraft，用于零样本编辑实际视频。通过在提示和帧之间进行对象为中心的处理，并在帧内使用时空注意力，我们实现了精确的形状编辑以及增强的一致性。我们的模型可以直接与稳定的扩散一起使用，并且不需要额外的局部信息。我们展示了我们的零样本注意控制方法在各种长度的视频中进行定位、高保真度、形状精确和时间一致的编辑。

Dec, 2023

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

CVPR 2023 文本引导的视频编辑竞赛

利用 AI 实现文本引导下的视频编辑的方法在该研究中进行了描绘和竞赛评估，并提出了一种新的数据集用于文本引导下的视频编辑任务。

Oct, 2023

视频编辑对视频检索的应用

通过使用单个时间戳作为廉价的注释来源，本研究提出了一种视频文本检索方法，其中初始视频片段边界从时间戳启动，并通过视频片段编辑方法进行改进，以提高检索性能。实验结果表明，通过编辑视频片段可以持续改善检索性能。

Feb, 2024

教学视频中的步骤差异

通过利用现有步骤注释和配套叙述，我们提出了一种方法，首先自动生成大量涉及来自 HowTo100M 的视频对的视觉指导调优数据，然后训练一个视频修饰的语言模型以联合推理多个原始视频，以识别视频对之间的差异并根据这些差异的严重程度对视频进行排名，显示出在多个视频上进行一般推理的有希望能力。

Apr, 2024

超越原始视频：利用大型多模态模型理解编辑视频

在本文中，我们针对社交媒体的编辑短视频构建了一个视频问答基准（称为 EditVid-QA），涵盖了四个典型的编辑类别，即特效、搞笑、网络迷因和游戏。我们的研究表明，现有的视频 LMMs 在编辑视频上表现较差，存在领域差距。为了提高 LMMs 的泛化能力，我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础，收集了所提出基准的训练集，从而提升了在 EditVid-QA 基准上的性能。同时，我们还发现了现有评估协议中的一个严重问题，即使用 GPT-3.5 judge 的 “sorry” 攻击，为了避免这种攻击，我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。

Jun, 2024