通过观看电影学习切割技能
该研究通过设计视觉模块和时间分析模块,提出了一种从电影数据中学习视觉模型的替代方法,可以通过预告片学习视觉模块,通过电影数据学习时间分析模块,大大减少学习成本的同时还能够保留长期的时间结构和有效的视觉特征。
Jun, 2018
该研究聚焦于理解主要的视频制作流程,包括六种主要的编辑组件:视频效果、动画、过渡、滤镜、贴纸和文本。该论文介绍了第一个用于视频创作的大规模数据集,探索了编辑组件的视觉表示方法,并提出了一种新的学习方法,能够更好地学习与编辑组件相关的视觉特征。研究结果表明,该方法在编辑组件的检索和识别方面表现优于其他替代解决方案,并且在过渡推荐任务上取得了最先进的结果。
Mar, 2024
本文提出一种基于强化学习的方法来加速教学视频,该方法可以自适应地选择不相关的帧以缩小输入视频,同时使用 Visually-guided Document Attention Network(VDAN)产生高度判别的嵌入空间来表示文本和视觉数据,实验证明本方法在视频段水平上实现了最佳的 F1 Score 和覆盖率。
Mar, 2020
在这篇论文中,我们提出了一种基于注意力控制的方法,名为 RealCraft,用于零样本编辑实际视频。通过在提示和帧之间进行对象为中心的处理,并在帧内使用时空注意力,我们实现了精确的形状编辑以及增强的一致性。我们的模型可以直接与稳定的扩散一起使用,并且不需要额外的局部信息。我们展示了我们的零样本注意控制方法在各种长度的视频中进行定位、高保真度、形状精确和时间一致的编辑。
Dec, 2023
本文提出一种基于非监督学习的方法,通过集合指导语音和视频,可以自动地学习完成某项任务的主要步骤,例如更换汽车轮胎。通过应用两个聚类问题,同时解决文本和视频中的信息,使它们连接在一起,得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。
Jun, 2015
通过使用单个时间戳作为廉价的注释来源,本研究提出了一种视频文本检索方法,其中初始视频片段边界从时间戳启动,并通过视频片段编辑方法进行改进,以提高检索性能。实验结果表明,通过编辑视频片段可以持续改善检索性能。
Feb, 2024
通过利用现有步骤注释和配套叙述,我们提出了一种方法,首先自动生成大量涉及来自 HowTo100M 的视频对的视觉指导调优数据,然后训练一个视频修饰的语言模型以联合推理多个原始视频,以识别视频对之间的差异并根据这些差异的严重程度对视频进行排名,显示出在多个视频上进行一般推理的有希望能力。
Apr, 2024
在本文中,我们针对社交媒体的编辑短视频构建了一个视频问答基准(称为 EditVid-QA),涵盖了四个典型的编辑类别,即特效、搞笑、网络迷因和游戏。我们的研究表明,现有的视频 LMMs 在编辑视频上表现较差,存在领域差距。为了提高 LMMs 的泛化能力,我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础,收集了所提出基准的训练集,从而提升了在 EditVid-QA 基准上的性能。同时,我们还发现了现有评估协议中的一个严重问题,即使用 GPT-3.5 judge 的 “sorry” 攻击,为了避免这种攻击,我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。
Jun, 2024