BriefGPT.xyz
Ask
alpha
关键词
time-sensitive multimodal large language model
搜索结果 - 1
TimeChat:长视频理解的时间敏感多模态大型语言模型
该研究提出了 TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视
→
PDF
7 months ago
Prev
Next