BriefGPT.xyz
Ask
alpha
关键词
spatial-temporal self-attention
搜索结果 - 1
基于扩散模型的可控文本到视频生成
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
PDF
a year ago
Prev
Next