Edit3K: 视频编辑组件的通用表示学习

Mar, 2024

Edit3K: 视频编辑组件的通用表示学习

Edit3K: Universal Representation Learning for Video Editing Components

Xin Gu, Libo Zhang, Fan Chen, Longyin Wen, Yufei Wang...

TL;DR该研究聚焦于理解主要的视频制作流程，包括六种主要的编辑组件：视频效果、动画、过渡、滤镜、贴纸和文本。该论文介绍了第一个用于视频创作的大规模数据集，探索了编辑组件的视觉表示方法，并提出了一种新的学习方法，能够更好地学习与编辑组件相关的视觉特征。研究结果表明，该方法在编辑组件的检索和识别方面表现优于其他替代解决方案，并且在过渡推荐任务上取得了最先进的结果。

Abstract

This paper focuses on understanding the predominant video creation pipeline, i.e., compositional video editing with six main types of editing components, including video effects, animation, transition, filter, st

video creation editing components visual representations raw materials transition recommendation

发现论文，激发创造

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023

UniEdit: 视频运动与外观编辑的统一无调节框架

UniEdit 是一个无需调整参数的框架，它利用预先训练的文本到视频生成器，通过反演和生成的方式来支持视频运动和外观编辑。通过引入辅助运动参考和重建分支，利用时间和空间自注意层来实现运动编辑并保留源视频内容，UniEdit 在视频运动编辑和各种外观编辑场景上优于现有的方法。

Feb, 2024

通过观看电影学习切割技能

本文旨在通过对已经编辑过的视频中提取的音像模式来学习判断真实和人工切割差异，提高创作效率，结果表明我们的模型比随机和基准线表现更好。

Aug, 2021

综合视频理解：基于内容的视频推荐器设计的视频摘要

该论文将视频摘要提出了内容为基础的推荐问题，使用可扩展的深度神经网络在显式建模的片段和视频上进行预测，通过场景和动作识别来寻找视频理解任务不同方面之间的相关性，同时讨论音频和视觉特征在总结任务中的影响，并通过数据增强和多任务学习来防止模型过度拟合。该模型最终在 ICCV 2019 CoView Workshop Challenge Track 中获得第一名。

Oct, 2019

从未经筛选的教育视频中的视觉表示端到端学习

本文介绍了一种新的学习方法，MIL-NCE, 用于从讲述视频中学习强大的视频表示，并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频，有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等多个数据集上进行了评估，证明了该方法优于已发表的自监督方法和多个全监督基准线的表现。

Dec, 2019

基于知识增强的多角度视频表示学习，用于场景识别

我们提出了一种新颖的双流框架，从多个角度（即时间和非时间角度）建模视频表示，并通过自蒸馏方式将两个角度融合在一起，在视频场景识别任务中自然引入知识。我们的实验结果表明，我们提出的方法是有效的。

Jan, 2024

通过组合对比学习提炼视听知识

本文介绍了一种新的跨模态知识迁移方法，使用组合对比学习来学习复合嵌入，通过学习多模态知识来改善视频表示学习表现。在三个视频数据集上进行的实验表明，该方法显著优于现有的知识蒸馏方法。

Apr, 2021

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

组合式视频预测

本研究提出了一种基于场景物体的运动特征的像素级未来预测方法，采用隐式预测物体的未来状态并考虑它们之间的相互作用，通过全局轨迹水平的潜在随机变量对任务多模态进行克服，并在两个数据集上进行了实证验证。

Aug, 2019

大规模整体视频理解

本文介绍了一个基于语义分类的大规模 Holistic 视频理解数据集 HVU，它实现了对多标签、多任务视频理解的全面考虑，以及介绍了一种新的综合外观和时间神经网络体系结构 HATNet，本文拓展了视频识别范畴，验证了 Holistic 表示学习在许多实际应用程序中的重要作用。

Apr, 2019