BriefGPT.xyz
Ask
alpha
关键词
narrated videos
搜索结果 - 2
CVPR
Vid2Seq:面向密集视频字幕生成的视觉语言模型的大规模预训练
本文介绍了 Vid2Seq,这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型,可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界,作为伪事件边界,并使用语音转录句子作为伪事件字幕,从
→
PDF
a year ago
CVPR
从未经筛选的教育视频中的视觉表示端到端学习
本文介绍了一种新的学习方法,MIL-NCE, 用于从讲述视频中学习强大的视频表示,并能够在不需要手动注释的情况下进行。该方法通过对齐不对称的讲述视频,有效地学习了视频表示。作者在 HMDB-51、UCF-101、Kinetics-700 等
→
PDF
5 years ago
Prev
Next