根据文本到图像扩散模型,在领域和类别间调整任意图像分类器
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集,构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。
Jul, 2023
提出了一种用于 Source-Free Domain Adaptation 的新框架,使用在目标领域样本上训练的文本到图像扩散模型生成源数据,并使用 Domain Adaptation 技术将生成的源数据与目标领域数据对齐,从而显著提高目标领域模型的性能。
Oct, 2023
DATID-3D 是一种适用于 3D 生成模型的领域适应方法,采用文本到图像扩散模型,在不收集附加数据的情况下,将源领域的最先进 3D 生成器微调为文本引导的目标领域,从而实现高分辨率、多视角一致的图像合成,并提出并演示了多样的 3D 图像操作。
Nov, 2022
提出了一种无监督域适应的通用框架,利用添加额外的网络和损失函数,通过使用图像翻译框架和特征提取实现在无需目标域训练数据的情况下,测试源域训练的深度神经网络在不同的目标域上的能力,并在分类和分割任务上,应用于 MNIST、USPS、SVHN 和 Amazon、Webcam、DSLR Office 以及 GTA5 和 Cityscapes 数据集,取得了最先进的性能。
Dec, 2017
本文介绍了一种新的方法,利用扩散模型 (Diffusion Models) 对源无关域适应 (Source-Free Domain Adaptation, SFDA) 的一般化能力。我们提出的 DM-SFDA 方法包括对预训练的文本 - 图像扩散模型进行微调,以利用目标图像特征来指导扩散过程,生成源域图像。具体来说,预训练的扩散模型通过微调生成能够在预训练的源模型中最小化熵并最大化置信度的源样本。然后,我们应用已建立的无监督域适应技术来将生成的源图像与目标域数据对齐。我们通过包括 Office-31、Office-Home 和 VisDA 在内的多个数据集进行了全面实验验证。实验结果突出了 SFDA 性能的显著提升,展示了扩散模型在生成与上下文相关的域特定图像方面的潜力。
Feb, 2024
我们提出了一种测试时间图像适应方法,通过同时更新和预测测试图像来提高模型在测试数据上的准确性,通过扩散模型将目标测试图像反投影到源域,设计结构指导模块通过低通滤波添加细化操作,用于正则化扩散以保留结构信息,并引入自整合方案自动调整对适应和未适应输入的依赖关系,增强适应鲁棒性。在我们构建的 ISIC2019-C 和 Dermnet-C 损坏鲁棒性评估基准上进行的大量实验表明,我们的方法在各种损坏、体系结构和数据区域上使分类器更加鲁棒。我们的数据集和代码将在 https://github.com/minghu0830/Skin-TTA_Diffusion 上提供。
May, 2024
最近,在生成式扩散模型方面取得的进展使得文本控制下合成逼真多样的图像具备了令人印象深刻的质量。但尽管取得了这些显著进展,将文本到图像生成模型应用于标准视觉识别任务的研究仍然有限。本文提出了一种计算机视觉任务的统一语言界面,该界面抽象了任务的具体设计选择,使得任务能够通过自然语言指令来执行。我们将多个计算机视觉任务转化为文本到图像生成问题,其中文本描述任务,生成的图像为视觉编码的任务输出。我们使用大规模语言模型来改写传达每个图像上要执行的特定任务的提示模板,并通过这个过程,创建了一个多模态和多任务训练数据集,包括输入图像、输出图像和带注释的指导说明。通过在构建的数据集上使用 InstructPix2Pix 架构将文本到图像扩散模型进行调节,将其功能从生成模型转变为基于指导的多任务视觉学习器。实验证明,我们的模型 InstructCV 在与其他综合和特定任务视觉模型的竞争中表现出色。而且,它还具备令人信服的对未见数据、类别和用户指令的泛化能力。
Sep, 2023
通过 prompt 学习,我们提出了一种学习扩散模型适当文本描述的框架,通过利用预训练扩散模型导出的质量指导和语义指导,我们的方法可以有效地学习提示,从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析,验证了所提方法的有效性。
Jan, 2024
利用预训练的扩散模型将目标领域图像投影到源领域,并通过伪标签集成迭代更新模型的方法,将模型适应和输入适应的优势相结合,从而减轻它们的缺点。在 CIFAR-10C 上的实验表明,我们的方法优于最强基线平均 1.7%,比最强的输入适应基线平均高出 18%。
Nov, 2023