通过多模态大型语言模型实现以语言为驱动的视频修复

Jan, 2024

通过多模态大型语言模型实现以语言为驱动的视频修复

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

Jianzong Wu, Xiangtai Li, Chenyang Si, Shangchen Zhou, Jingkang Yang...

TL;DR我们介绍了一种新的任务 - 语言驱动的视频修复，它使用自然语言指令来指导修复过程。我们提出了 Remove Objects from Videos by Instructions (ROVI) 数据集，其中包含 5,650 个视频和 9,091 个修复结果，以支持该任务的训练和评估。我们还提出了一种新的基于扩散的语言驱动视频修复框架，这是该任务的第一个端到端基线，有效地整合了多模态大规模语言模型，以理解和执行复杂的基于语言的修复请求。我们详细的结果展示了该数据集的多样性和该模型在各种语言指导下的修复场景中的有效性。我们将公开发布数据集、代码和模型。

Abstract

We introduce a new task -- language-driven video inpainting, which uses natural language instructions to guide the inpainting process. This approach overcomes the limitations of traditional video inpainting methods that depend on manually labeled binary masks, a process often tedious a

language-driven video inpainting rovi dataset diffusion-based language-driven video inpainting framework multimodal large language models language-instructed inpainting scenarios

发现论文，激发创造

学习通过首先移除图像对象来添加图像对象的绘画

通过利用分割蒙版数据集和在蒙版内修复的修复模型，我们可以实现自动逆向修复过程，将对象添加到图像中，在没有用户提供的输入蒙版的情况下，提供了一种无缝地根据文本指令添加对象的方法。

Apr, 2024

基于深度学习的图像和视频修复研究综述

通过深度学习，对于图像和视频修复的基于深度学习的方法进行综合评述，并从高水平的修复流程、深度学习架构、模块设计等多个角度进行分类总结。同时，讨论了训练目标、常见基准数据集、评估指标以及各修复方法的优势、局限性及实际应用，并探讨了公开挑战和未来可能的研究方向。

Jan, 2024

对比学习下的视频修复定位

基于对比学习的 Video Inpainting LOcalization (ViLocal) 方案使用 3D Uniformer 编码器学习了有效的时空取证特征，通过吸引 / 排斥正 / 负原始和伪造像素对捕捉到了图像修复不一致，然后通过专门的两阶段训练策略利用轻量级卷积解码器生成了一个像素级修复定位地图，实验证明 ViLocal 优于现有技术。

Jun, 2024

IMProv: 基于修复的多模态计算机视觉任务解题

本研究提出了 IMProv - 一种生成模型，能够从多模态提示中进行上下文学习，以解决计算机视觉任务，并通过文本条件和数据集缩放来提高任务性能。

Dec, 2023

基于深度注意力噪声学习的可信视频修复定位

设计了一种具有优秀鲁棒性和泛化能力的受信任的视频修复定位网络（TruVIL），通过深度关注噪声学习多个阶段以捕捉修复痕迹，通过交叉模态关注融合模块探索两种互补模态之间的相关性，通过关注噪声解码模块选择性增强空间细节，实验证明了 TruVIL 相对于现有技术的卓越性能。

Jun, 2024

VIP: 基于多模态大型语言模型的多功能图像外描绘

本文介绍了一种新颖的图像外延框架，利用多模态大语言模型（MLLM）自动提取和组织给定图像的遮罩部分和非遮罩部分的文本描述，并利用特殊的交叉注意力模块（CTS）增强图像的特定空间区域与文本提示部分之间的交互作用，从而实现了图像外延结果的定制化。该方法在三个常用数据集上的实验结果显示，显著超越了现有方法，并展示了其多功能外延结果的定制能力。

Jun, 2024

基于深度学习的音视频言语修复

本文介绍了一种基于深度学习的框架，用于音频 - 视觉的语音修复，展示了多任务学习与视觉信息对语音信号修复的有效贡献并比较了仅音频信息下的表现。

Oct, 2020

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

Inst-Inpaint: 使用扩散模型指导对象移除

本论文提出了一种基于自然语言输入的图像修复算法，名为 Inst-Inpaint，可同时估计要移除的对象，并对其进行修复。为了支持该任务，我们首先构建了一个名为 GQA-Inpaint 的数据集。我们在合成和真实图像数据集上运行了各种 GAN 和扩散基线，使用不同的评估指标比较方法，并展示了显著的定量和定性改进。

Apr, 2023

音视频自监督引导的深度视频修复

通过提出的两个新损失函数：音频 - 视觉关注损失和音频 - 视觉伪类一致性损失，我们向视频修复网络传递音频 - 视觉对应关系的先验知识，进而提高视频修复的性能。实验证明，我们的方法可以更好地恢复更广泛的视频场景，并且在场景中的声音对象局部遮挡时特别有效。

Oct, 2023