BriefGPT.xyz
Ask
alpha
关键词
large video-language models
搜索结果 - 2
ShareGPT4Video: 提升视频理解与生成,优化字幕
通过稠密和精确的字幕,在大视频 - 语言模型(LVLMs)的视频理解和文本 - 视频模型(T2VMs)的视频生成方面,我们提出了 ShareGPT4Video 系列,该系列包括 40K GPT4V 标注的各种长度和来源的视频稠密字幕,通过精
→
PDF
a month ago
Vista-LLaMA: 基于视觉标记等距离的可靠视频叙述器
对于大文本的视觉问题,当前的方法存在产生相关文本的概率较高的问题。本文提出了 Vista-LLaMA 框架,采用了一种新的注意机制,通过保持视觉和文本间的一致距离,特别在相对距离较长的情况下提高了视觉令牌对于文本生成的影响,从而显著降低了生
→
PDF
7 months ago
Prev
Next