BriefGPT.xyz
Ask
alpha
关键词
sequence of frames
搜索结果 - 1
MiniGPT4-Video: 提升多模态 LLM 在视频理解中的能力:交错的视觉 - 文本标记
这篇论文介绍了 MiniGPT4-Video,一种用于视频理解的多模态大型语言模型。该模型能够处理时间视觉和文本数据,从而能够理解视频的复杂性。通过扩展 MiniGPT-v2 模型的能力,该模型能够处理连续的视频帧序列,使其能够理解视频。M
→
PDF
3 months ago
Prev
Next