Jun, 2024

VIP: 基于多模态大型语言模型的多功能图像外描绘

TL;DR本文介绍了一种新颖的图像外延框架,利用多模态大语言模型(MLLM)自动提取和组织给定图像的遮罩部分和非遮罩部分的文本描述,并利用特殊的交叉注意力模块(CTS)增强图像的特定空间区域与文本提示部分之间的交互作用,从而实现了图像外延结果的定制化。该方法在三个常用数据集上的实验结果显示,显著超越了现有方法,并展示了其多功能外延结果的定制能力。