BriefGPT.xyz
大模型
Ask
alpha
关键词
query retrieval
搜索结果 - 1
MLLM 作为视频叙述者:减轻视频片段检索中的模态不平衡
利用多模态大型语言模型 (MLLM) 的视觉文本理解能力,本研究以 MLLM 作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行
→
PDF
9 days ago
Prev
Next