May, 2023

随心所欲编辑:多粒度命令的视频描述编辑

TL;DR本文提出了一个新的视频描述编辑任务(VDEdit),旨在通过灵活的用户需求自动修订现有的视频描述。为支持 VDEdit 任务,我们首先自动构建了一个大规模基准数据集 VATEX-EDIT,描述了不同的人类活动。考虑到现实生活中的应用场景,我们还手工收集了一个电子商务基准数据集 EMMAD-EDIT。我们提出了一个统一的框架,将操作,位置,属性三元组转化为文本控制序列以处理多粒度的编辑命令,并采用综合性指标评估 VDEdit 功能。