BriefGPT.xyz
Ask
alpha
关键词
text-guided video prediction
搜索结果 - 1
AID:适应图像到视频扩散模型用于指导视频预测
基于文本和初始帧,我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构,并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型,我们的方法在四个数据集上明显
→
PDF
a month ago
Prev
Next