Oct, 2023

探索使用扩散模型的迭代细化来进行视频定位

TL;DRDiffusionVG是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流Charades-STA和ActivityNet Captions基准测试中展示了竞争性甚至优越的性能。