事件驱动视频重建的时间残差引导扩散框架
本研究提出了一种使用事件相机进行运动去模糊的新的方法,并通过引入新的Exposure Time-based Event Selection(ETES)模块和特征融合模块,提出了端到端的学习框架。在各个数据集上的实验表明,该方法可以达到最先进的性能水平。
Dec, 2021
该论文旨在揭示单个运动模糊图像中连续场景动态的信息,并提出一种基于IVF的方法来还原任意时间戳下的图像,同时利用运动和纹理引导监督的方法提高非参考时间戳下的图像清晰度。实验表明,该方法在客观和主观上均优于现有的方法。
Apr, 2023
本文提出了一种新的视频综合方法,它使用预训练模型,并使用经过精心设计的视频噪声先验来生成高质量,时域一致的序列帧,获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时,在较小的 UCF-101 基准测试中使用更少的计算资源, $10 imes$更小的模型,达到了SOTA的视频生成质量。
May, 2023
我们提出了一种将渐进扩散概念(沿着扩散时间轴操作)扩展到运动序列的方法,用于支持时变去噪,从而将两个轴相互纠缠,通过迭代去噪逐渐增加噪声位移的动作缓冲区,并产生任意长的帧流,为长期运动合成提供了新的框架。
Jul, 2023
最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性,但是在将扩散模型应用于静态图像转视频生成(即图像到视频生成)时,这个问题并不简单。悬念源于以下方面:连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐,还应追求相邻帧之间的时间一致性。为了缓解这个问题,我们提出了TRIP,这是一种新的图像到视频扩散范例,它以从静态图像派生的图像噪声先验为基础,通过引入时间残差学习共同触发帧间关系推理,并简化连贯的时间建模。技术上,图像噪声先验首先通过基于静态图像和带噪视频潜在代码的单步向后扩散过程得到。接下来,TRIP执行类似残差的双路径方案进行噪声预测:1)一条捷径路径,直接将图像噪声先验作为每帧的参考噪声,以增强第一帧与后续帧之间的对齐;2)一条残差路径,使用基于带噪视频和静态图像潜在代码的3D-UNet进行帧间关系推理,从而简化每帧噪声的学习。此外,每帧的参考噪声和残差噪声通过注意机制动态合并,用于最终的视频生成。对WebVid-10M、DTDB和MSR-VTT数据集上进行的大量实验表明了我们TRIP在图像到视频生成中的有效性。
Mar, 2024
提出了一种名为HDR-V-Diff的高动态范围(HDR)视频重建方法,结合扩散模型以实现HDR分布,通过HDR Latent Diffusion Model(HDR-LDM)学习单个HDR帧的分布先验知识,通过Temporal-Consistent Alignment Module(TCAM)学习时序信息,使用Zero-Init Cross-Attention(ZiCA)机制整合先验分布和时序信息,从而生成具有真实细节的HDR帧。经过广泛实验证明,HDR-V-Diff在多个代表性数据集上实现了最先进的结果。
Jun, 2024
本研究解决了视频去模糊中因严重运动模糊而导致的邻近帧时间对应不准确的问题。通过引入事件相机的微秒时间分辨率,提出了两个模块以增强单帧特征和对帧间时间特征进行对齐。实验结果显示,该方法在合成和真实世界的去模糊数据集上超过了现有的最新技术。
Aug, 2024
本研究解决了现有视频去模糊方法在严重运动模糊条件下无法准确对齐邻近帧的问题。我们提出了一种新颖的方法,利用事件相机的微秒时间分辨率,通过模块化设计增强帧内特征并实现帧间时间特征对齐,从而显著提高去模糊效果。实验结果表明,该方法在合成和真实世界数据集上均超越了最新的帧基础和事件基础的去模糊技术。
Aug, 2024