BriefGPT.xyz
Ask
alpha
关键词
vid2seq
搜索结果 - 1
CVPR
Vid2Seq:面向密集视频字幕生成的视觉语言模型的大规模预训练
本文介绍了 Vid2Seq,这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型,可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界,作为伪事件边界,并使用语音转录句子作为伪事件字幕,从
→
PDF
a year ago
Prev
Next