VIP: 基于多模态大型语言模型的多功能图像外描绘

Jun, 2024

VIP: 基于多模态大型语言模型的多功能图像外描绘

VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model

Jinze Yang, Haoran Wang, Zining Zhu, Chenglong Liu, Meng Wymond Wu...

TL;DR本文介绍了一种新颖的图像外延框架，利用多模态大语言模型（MLLM）自动提取和组织给定图像的遮罩部分和非遮罩部分的文本描述，并利用特殊的交叉注意力模块（CTS）增强图像的特定空间区域与文本提示部分之间的交互作用，从而实现了图像外延结果的定制化。该方法在三个常用数据集上的实验结果显示，显著超越了现有方法，并展示了其多功能外延结果的定制能力。

Abstract

In this paper, we focus on resolving the problem of image outpainting, which aims to extrapolate the surrounding parts given the center contents of an image. Although recent works have achieved promising performance, the lack of versatility and →

image outpainting multimodal large language model customization cross-attention module resource-efficient

发现论文，激发创造

基于多模态的无偏导向图像修复

该论文介绍了一种用于图像修复的新型深度神经网络，该网络包含了一个修复分支和两个辅助分支，能够有效地利用多模式定位和语义信息，实现对各种正 / 不规则图像遮挡的修复，达到了最好的效果。

Aug, 2022

通过多模态大型语言模型实现以语言为驱动的视频修复

我们介绍了一种新的任务 - 语言驱动的视频修复，它使用自然语言指令来指导修复过程。我们提出了 Remove Objects from Videos by Instructions (ROVI) 数据集，其中包含 5,650 个视频和 9,091 个修复结果，以支持该任务的训练和评估。我们还提出了一种新的基于扩散的语言驱动视频修复框架，这是该任务的第一个端到端基线，有效地整合了多模态大规模语言模型，以理解和执行复杂的基于语言的修复请求。我们详细的结果展示了该数据集的多样性和该模型在各种语言指导下的修复场景中的有效性。我们将公开发布数据集、代码和模型。

Jan, 2024

In&Out: 通过 GAN 反演实现多样化的图像出油画

本研究提出了一种基于生成式对抗网络的图像拓展方法，通过对多个潜在编码的生成进行条件渲染，实现了对图像的多样化拓展，并可对分类输入进行拓展，其拓展区域结构和内容更加丰富，表现出更高的视觉质量和多样性。

Apr, 2021

通过位置查询和基于扩散的方法进行一步多图像外推

该论文主要研究了图像外部绘制的技术，提出了一种名为 PQDiff 的新方法，它可以生成超出原始边界的图像内容，具有任意扩展倍数和一步完成的能力，而且在性能和时间效率方面优于其他现有方法。

Jan, 2024

视频外绘的分层掩码三维扩散模型

视频外延的研究中，我们引入了一种基于遮罩的三维扩散模型，在保持填充区域的时间连续性方面，通过使用遮罩建模技术训练模型，利用多个引导帧连接多个视频剪辑推理结果，确保了时间连续性，并减少相邻帧之间的抖动。另外，我们通过交叉注意力，以全局帧为提示，引导模型获取当前视频剪辑之外的信息。同时，我们还引入了混合的由粗到细的推理流程来缓解伪影积累问题，与现有的只使用填充策略的由粗到细流程不同，我们的流程可以通过遮罩建模的双向学习，在生成稀疏帧时采用填充与插值的混合策略。实验证明我们的方法在视频外延任务中实现了最先进的结果。更多结果请参阅我们的此 URL。

Sep, 2023

Anywhere: 一个可靠且多样化的前景条件图像修复的多智能体框架

Anywhere 是一种先进的多智能体框架，通过使用多个代理（如 VLM、LLM 和图像生成模型），解决了前景条件下图像修复的过度想像、前景 - 背景不一致和有限多样性等问题，使得前景条件下的图像修复产生更可靠和多样化的结果。

Apr, 2024

使用外推算法进行超长自然景观图像预测

该研究设计了具有创新模块的编解码器结构，包括跳过水平连接和循环内容传递，实现了高质量、实时和高效的图像外描绘预测，同时能够根据给定的输入生成风格和语义内容相同的非常长的图像。在收集的新景观数据集上进行的实验结果表明该提出的架构具有很高的效能。

Dec, 2019

改进基于文本引导的图像修复的跨模态对齐

本研究提出了一种基于视听语言预训练模型和对跨模态对齐知识的改进的跨模态对齐模型的图像修复方法，通过在两个流行的视听语言数据集上的实验表明，该模型相对于其他强竞争对手的性能达到了最佳水平。

Jan, 2023

画出框框之外：使用 GAN 进行图像外放

通过深度学习的方式，利用基于 DCGAN 架构的图像分割技术及本地鉴别器提升图像边界的质量，从而实现图片的画外部分（extrapolation），其结果表明利用深度学习方法进行画外部分的研究既可行又具有前景。

Aug, 2018

高效 3DCG 背景创建的多样真实 360 度图像外延技术

本文提出了基于 Transformers 和 CompletionNets 的自动场景建模方法，使用 WS-perceptual loss 和 circular inference 提升 360 度图像的质量，并在虚拟物体插入场景上取得了具有感知自然性的结果。

Mar, 2022