BriefGPT.xyz
Ask
alpha
关键词
activitynet captions
搜索结果 - 6
音视频线索的更佳应用:基于双模变换器的密集视频字幕
本文介绍了一种基于 Transformer 结构的双模态编码器,用于处理 Dense Video Captioning 任务,通过同时处理视频和音频两种输入,该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。
PDF
4 years ago
CVPR
多模态密集视频字幕
本文提出了一种新的密集视频字幕方法,它能够利用任何数量的多模态信息来描述事件,并使用自动语音识别系统获得音频和语音模态的文本描述,在将其视为单独的输入与视频帧和相应的音轨一起使用,并利用最近提出的 Transformer 体系结构将多模态输
→
PDF
4 years ago
句子指定的动态视频缩略图生成
本论文提出了一种新型的任务:句子指定的动态视频缩略图生成,使用了基于句子和视频的语义交互和内部视频关系的科技,提出了图卷积视频缩略图指针,可以以时间条件为基础,生成句子指定的视频缩略图。与此同时,他们也提供了一个新的数据集以支持这个新的任务
→
PDF
5 years ago
CVPR
多句视频描述的对抗性推理
本研究提出使用对抗技术在推断过程中设计鉴别器来促进更好的多句子视频描述,并提出一个多鉴别器 “混合” 设计,其中每个鉴别器针对说明书的一个方面,以评估三个标准:与视频的视觉相关性、语言多样性和流畅度以及句子间的连贯性。该方法通过对流行的 A
→
PDF
6 years ago
CVPR
密集视频字幕生成中的事件定位与描述
本文提出了一种新的密集视频字幕生成框架,该框架将时间上的事件提案的本地化和生成句子主体的合并,通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进,创造了 12.96
→
PDF
6 years ago
视频中的密集事件描述
本篇研究介绍了一种能够在视频中检测和描述事件的新模型,同时使用过去和未来事件的上下文信息来联合描述所有事件,并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。
PDF
7 years ago
Prev
Next