BriefGPT.xyz
Ask
alpha
关键词
video-text large language models
搜索结果 - 1
HawkEye: 训练以视频为基础的文本语言模型
我们提出了 HawkEye,这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM,并构建了 InternVid-G,这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库,我们引入了两个新的时间感知型训练目标,以及一种粗粒度
→
PDF
4 months ago
Prev
Next