BriefGPT.xyz
Ask
alpha
关键词
dense event captioning
搜索结果 - 3
CVPR
Vid2Seq:面向密集视频字幕生成的视觉语言模型的大规模预训练
本文介绍了 Vid2Seq,这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型,可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界,作为伪事件边界,并使用语音转录句子作为伪事件字幕,从
→
PDF
a year ago
观看、听取与叙述:多模态弱监督密集事件字幕生成
本文研究了多模态学习中的音频 - 视觉相关性,并使用该方法在视频中探讨弱监督下的活动密集事件字幕问题,通过实验证明了提出的多模态方法优于单模态方法,同时验证了特定功能表示和体系结构设计的选择。
PDF
5 years ago
视频中弱监督稠密事件字幕生成
本文提出一个无需时间片段注释的方法:针对视频中所有感兴趣事件的稠密描述,基于一一对应的假设,将该问题分解为事件字幕和句子定位的双重问题,并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。
PDF
6 years ago
Prev
Next