随心所欲编辑：多粒度命令的视频描述编辑

May, 2023

随心所欲编辑：多粒度命令的视频描述编辑

Edit As You Wish: Video Description Editing with Multi-grained Commands

Linli Yao, Yuanmeng Zhang, Ziheng Wang, Xinglin Hou, Tiezheng Ge...

TL;DR本文提出了一个新的视频描述编辑任务（VDEdit），旨在通过灵活的用户需求自动修订现有的视频描述。为支持 VDEdit 任务，我们首先自动构建了一个大规模基准数据集 VATEX-EDIT，描述了不同的人类活动。考虑到现实生活中的应用场景，我们还手工收集了一个电子商务基准数据集 EMMAD-EDIT。我们提出了一个统一的框架，将操作，位置，属性三元组转化为文本控制序列以处理多粒度的编辑命令，并采用综合性指标评估 VDEdit 功能。

Abstract

Automatically narrating a video with natural language can assist people in grasping and managing massive videos on the Internet. From the perspective of video uploaders, they may have varied preferences for writing the desired video description to attract more potential followers, e.g. catching customers' attention for product videos. The Controllable

video captioning controllable video captioning video description editing large-scale benchmark dataset e-commerce benchmark dataset

发现论文，激发创造

复杂操作动作视频的多句描述

提出了一种混合统计和端到端框架来解决视频描述中细节级别、操作行为和层次结构的问题，并且定量结果表明这些方法产生的描述比其他竞争方法更真实。

Nov, 2023

具有可变细节级别的连贯多句视频描述

本文介绍了一种通过从视频中学习语义表示（SR）并以 SR 为基础来生成多句连贯的自然语言描述的方法，同时也提出了基于手的视觉识别方法以及利用词格进行句子生成的方法，并通过人类评价证明了该方法比现有相关工作能够生成更可读、准确和相关的描述。

Mar, 2014

电子商务中可控的文本编辑：草稿、命令和修改

本研究提出了一种新的基于任务控制的电商网站商品描述文本自动生成方法，通过采用草稿 - 命令 - 编辑（draft-command-edit）的方式，系统可以根据用户的指令（删除或添加），以灵活的方式进行修改和生成商品描述，同时提出了数据增强方法和新的评估度量，实验结果表明，该方法在自动和人工评估中均超越了基线模型。

Aug, 2022

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

InstructVid2Vid：自然语言控制视频编辑

本文介绍了一种基于预训练模型和条件式 3D U-Net 结构的、可以通过自然语言指令编辑视频的方法，同时提出了一种新的视帧差异损失函数，可以在训练过程中提高生成视频的时序一致性，实验表明该方法生成的视频质量高、时序连贯，能够进行多种视频编辑操作。

May, 2023

细粒度可听视频描述

本文介绍一项新的音频视觉语言建模任务：细粒度可听视频描述（FAVD），旨在为给定的听觉视频提供详细的文本描述，包括每个物体的外观和空间位置，移动物体的动作以及视频中的声音，本文还构建了第一个 fine-grained audible video description benchmark（FAVDBench），并提出了两个新的度量标准。我们使用先前的视频字幕模型加入了一个附加的音频分支的 audio-visual-language transformer 对该任务进行了初步的尝试，并证明了 fine-grained video descriptions 可帮助创建比字幕更复杂的视频。

Mar, 2023

用户生成视频的标题生成

本研究提出了两种方法扩展现有视频的字幕生成模型以生成视频标题，即通过高亮检测器使视频字幕生成模型具有敏感性并同时进行标题生成和视频亮点定位训练，以及通过增强句子多样性，用大量无对应视频的句子训练模型，并在 18100 个用户生成的视频和标题（VTW）数据集和 M-VAD 数据集上验证了本研究的方法，均获得了最佳效果。

Aug, 2016

视频标题综合信息整合建模框架

为优化电商中消费者生成视频的推荐，我们提出了一种端到端的建模方式，包括综合使用消费者生成视频的内容、评论句子和商品属性，并基于图神经网络实现多粒度视频分析和故事线总结。

Jun, 2020

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

VidEdit：零样本和空间感知的文本驱动视频编辑

本研究介绍了一种名为 VidEdit 的零镜头文本视频编辑方法，利用扩散模型结合语义分割器和边缘检测器实现了强的时间和空间上的一致性，证明在 DAVIS 数据集上，VidEdit 在语义保真度、图像保存和时间一致性方面优于现有的方法，同时仅需大约一分钟即可处理一个视频。

Jun, 2023