BriefGPT.xyz
Ask
alpha
关键词
pre-alignment
搜索结果 - 1
TOPA: 通过文本预对齐扩展大型语言模型用于视频理解
该论文介绍了一种名为 TOPA 的新方法,通过使用现有的大型语言模型(LLM)自动生成模拟真实视频 - 文本数据的连续文本帧,进而预对齐一种仅使用语言的 LLM 与视频模态之间的差距,并利用 CLIP 模型作为特征提取器来对齐图像和文本模态
→
PDF
a month ago
Prev
Next