BriefGPT.xyz
大模型
Ask
alpha
关键词
long-range video models
搜索结果 - 1
文本条件下的长篇视频理解的重新采样器
使用文本条件的视频重采样器(TCR)模块和预训练的视觉编码器和大型语言模型(LLM),我们设计了一种基于 Transformer 的采样架构,可以处理长视频序列,并通过交叉注意机制,将相关的视觉特征从视频中提取出来,并通过 LLM 生成文本
→
PDF
6 months ago
Prev
Next