事件驱动视频重建的时间残差引导扩散框架

Jul, 2024

事件驱动视频重建的时间残差引导扩散框架

Temporal Residual Guided Diffusion Framework for Event-Driven Video Reconstruction

Lin Zhu, Yunlong Zheng, Yijun Zhang, Xiao Wang, Lizhi Wang...

TL;DR通过引入新的方法，整合了时间特征、低频纹理和高频事件等条件信息，以指导去噪扩散概率模型(DDPM)生成准确自然的输出，我们的框架在从事件流中重建高质量视频方面表现出色，相比之前的方法减轻了众所周知的伪影和过度平滑问题。

Abstract

event-based video reconstruction has garnered increasing attention due to its advantages, such as high dynamic range and rapid motion capture capabilities. However, current methods often prioritize the extraction of temporal information from continuous event flow, leading to an overemp

发现论文，激发创造

未知曝光时间视频的事件引导去模糊

本研究提出了一种使用事件相机进行运动去模糊的新的方法，并通过引入新的Exposure Time-based Event Selection（ETES）模块和特征融合模块，提出了端到端的学习框架。在各个数据集上的实验表明，该方法可以达到最先进的性能水平。

Dec, 2021

从单个模糊图像中恢复连续场景动态

该论文旨在揭示单个运动模糊图像中连续场景动态的信息，并提出一种基于IVF的方法来还原任意时间戳下的图像，同时利用运动和纹理引导监督的方法提高非参考时间戳下的图像清晰度。实验表明，该方法在客观和主观上均优于现有的方法。

Apr, 2023

保留自身关联性：一种视频扩散模型的噪声先验

本文提出了一种新的视频综合方法，它使用预训练模型，并使用经过精心设计的视频噪声先验来生成高质量，时域一致的序列帧，获得了在 UCF-101 和 MSR-VTT 基准测试上 SOTA 的无需训练文本到视频结果。同时，在较小的 UCF-101 基准测试中使用更少的计算资源， $10 imes$更小的模型，达到了SOTA的视频生成质量。

May, 2023

TEDi: 长期运动合成的时间交织扩散

我们提出了一种将渐进扩散概念（沿着扩散时间轴操作）扩展到运动序列的方法，用于支持时变去噪，从而将两个轴相互纠缠，通过迭代去噪逐渐增加噪声位移的动作缓冲区，并产生任意长的帧流，为长期运动合成提供了新的框架。

Jul, 2023

运动引导的潜在扩散用于时域一致的现实世界视频超分辨率

利用预训练的隐式扩散模型，结合时序动态和创新的序列导向损失来提高视频超分辨率，实现更好的感知质量。

Dec, 2023

高分辨率视频的时间一致性扩展扩散模型

通过文本引导的潜在扩散框架，实现视频升尺度，并在保持时域一致性和质量平衡之间提供更大灵活性。

Dec, 2023

TRIP：图像降噪先验的时域残差学习用于图像到视频扩散模型

最近在文本到视频生成方面的进展展示了强大的扩散模型的实用性，但是在将扩散模型应用于静态图像转视频生成（即图像到视频生成）时，这个问题并不简单。悬念源于以下方面：连续动画帧的扩散过程不仅应保持与给定图像的忠实对齐，还应追求相邻帧之间的时间一致性。为了缓解这个问题，我们提出了TRIP，这是一种新的图像到视频扩散范例，它以从静态图像派生的图像噪声先验为基础，通过引入时间残差学习共同触发帧间关系推理，并简化连贯的时间建模。技术上，图像噪声先验首先通过基于静态图像和带噪视频潜在代码的单步向后扩散过程得到。接下来，TRIP执行类似残差的双路径方案进行噪声预测：1）一条捷径路径，直接将图像噪声先验作为每帧的参考噪声，以增强第一帧与后续帧之间的对齐；2）一条残差路径，使用基于带噪视频和静态图像潜在代码的3D-UNet进行帧间关系推理，从而简化每帧噪声的学习。此外，每帧的参考噪声和残差噪声通过注意机制动态合并，用于最终的视频生成。对WebVid-10M、DTDB和MSR-VTT数据集上进行的大量实验表明了我们TRIP在图像到视频生成中的有效性。

Mar, 2024

扩散促进的高动态范围视频重建

提出了一种名为HDR-V-Diff的高动态范围（HDR）视频重建方法，结合扩散模型以实现HDR分布，通过HDR Latent Diffusion Model（HDR-LDM）学习单个HDR帧的分布先验知识，通过Temporal-Consistent Alignment Module（TCAM）学习时序信息，使用Zero-Init Cross-Attention（ZiCA）机制整合先验分布和时序信息，从而生成具有真实细节的HDR帧。经过广泛实验证明，HDR-V-Diff在多个代表性数据集上实现了最先进的结果。

Jun, 2024

事件引导的视频去模糊的跨模态时间对齐

本研究解决了视频去模糊中因严重运动模糊而导致的邻近帧时间对应不准确的问题。通过引入事件相机的微秒时间分辨率，提出了两个模块以增强单帧特征和对帧间时间特征进行对齐。实验结果显示，该方法在合成和真实世界的去模糊数据集上超过了现有的最新技术。

Aug, 2024

CMTA：用于事件引导的视频去模糊的跨模态时间对齐

本研究解决了现有视频去模糊方法在严重运动模糊条件下无法准确对齐邻近帧的问题。我们提出了一种新颖的方法，利用事件相机的微秒时间分辨率，通过模块化设计增强帧内特征并实现帧间时间特征对齐，从而显著提高去模糊效果。实验结果表明，该方法在合成和真实世界数据集上均超越了最新的帧基础和事件基础的去模糊技术。

Aug, 2024