从密集视频字幕中提取语义元数据
本篇研究介绍了一种能够在视频中检测和描述事件的新模型,同时使用过去和未来事件的上下文信息来联合描述所有事件,并介绍了一个用于密集事件字幕的基准测试集ActivityNet Captions。
May, 2017
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作识别和空时样式转移。
Aug, 2017
JEDDi-Net是一种用于密集视频字幕生成的神经网络,它通过三维卷积层对输入视频流进行连续编码,并使用时间池化特征提出可变长度的时间事件,再生成它们的字幕。在大规模数据集上,JEDDi-Net 表现出了优异的性能。
Feb, 2018
本研究提出了一种基于Transformer模型的端到端的视频描述生成方法来解决dense video captioning中语言描述与事件提案建立之间的直接联系问题,并通过ActivityNet Captions和YouCookII数据集的实验表明其性能提高。
Apr, 2018
本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在ActivityNet Captions数据集上的实验显示出了与现有技术相比的明显改进,创造了12.96%的新的METEOR记录。
Apr, 2018
本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。
Dec, 2018
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在ActivityNet Captions数据集上取得了出色的表现。
Apr, 2019
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的Transformer体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在ActivityNet Captions数据集上测试了他们的模型,并进行了深入的分析。
Mar, 2020
本文提出了一种简单而有效的端到端稠密视频字幕生成框架PDVC,其中通过在transformer decoder的顶部添加事件计数器,将原始视频精确地分割为多个事件片段,并在其基础上进行事件集合预测,从根本上提高了预测字幕的连贯性和可读性。
Aug, 2021
在这篇论文中,我们提出了直接生成有实体感知能力的新闻视频标题的任务,并发布了一个大规模数据集VIEWS(VIdeo NEWS)以支持该任务的研究。同时,我们还提出了一种方法,通过从外部世界知识中检索到的上下文来增强视频中的视觉信息,以生成具有实体感知能力的标题。通过在三个视频字幕模型上的广泛实验和见解,我们证明了我们方法的有效性,并且展示了我们的方法能够推广到现有的新闻图像字幕数据集。相信我们为这一具有挑战性的任务奠定了坚实的研究基础。
Dec, 2023