- CVPR量化扩散变压器分析
通过分析扩散变换器中激活和权重量化的挑战,我们提出了一种单步采样校准激活和适应分组量化权重的低比特量化方法,从而在无需任何优化的情况下在纯变换器结构上实现了高效的后量化,我们通过初步的条件图像生成实验展示了所提出方法的效率和有效性。
- In-Context Translation: 走向图像识别、处理和生成的统一化
我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架,用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差,并最大程度地增强了相似任务之间的相互促进。在 - AAAI针对确定性条件图像生成模型的攻击:多样化和可控生成
基于预训练的确定性条件图像生成模型的网络结构或参数不变,我们通过添加微小扰动攻击输入条件,提出了一种简单高效的插件投影梯度下降(PGD)方法来生成多样且可控的图像,从而为低层视觉任务应用对抗攻击打开了新的可能性。
- VIEScore:面向条件图像合成评估的可解释度量
本文介绍了 VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE,我们发 - 流形保持引导扩散
提出了 Manifold Preserving Guided Diffusion (MPGD),实现了一种无需训练的条件生成框架,利用预训练扩散模型和现成的神经网络,具有最小的附加推断成本,适用于各种条件生成应用,提供了高样本品质和高达 3 - 引导式流生成建模与决策
使用非分类器引导的流匹配模型在条件图像生成和语音合成方面显著改善了样本质量,而且在计算量极低的情况下不会影响智能体的总体性能。
- ImagenHub:标准化条件图像生成模型的评估
条件图像生成的推理和评估存在巨大的不一致性。本文提出 ImagenHub,一个一站式库来标准化所有条件图像生成模型的推理和评估,并通过定义七个主要任务、构建统一的推理管道和设计两个人工评估指标来解决这个问题。
- 多样化的语义图像编辑与风格编码
本研究提出了一个框架,能够以一种新的机制对可见和部分可见的对象进行编码,以实现样式编码和最终生成之间的一致性。通过与以前的条件图像生成和语义图像编辑算法进行广泛比较,我们的实验表明,我们的方法在技术上显著改进。我们的方法不仅在定量结果上取得 - 少数标签下,扩散模型与半监督学习相得益彰
提出了一种基于伪标签的条件图像生成和分类的三阶段培训策略,称为双伪训练(DPT),在 Imagenet 数据集上显示了优越性能。
- MaskSketch: 无配对结构引导的遮罩图像生成
本文提出了一种名为 MaskSketch 的图像生成方法,它可以使生成结果在采样过程中通过使用辅助素描作为额外的调节信号进行空间调节。MaskSketch 利用预训练的掩膜生成变压器,无需模型训练或配对监督,并且可以使用不同级别的输入素描。 - ECCV生成器知道无条件 GAN 中判别器应学习的内容
本研究探讨了在无条件图像生成中采用密集监督的有效性,发现生成器特征图可以替代昂贵的语义标签图,在此基础上提出了一种新的生成器引导判别器正则化方法(GGDR),从而能够在无条件图像生成中实现丰富的语义表达。实验结果表明,GGDR 能够显著提高 - ECCV自回归图像生成与集成量化
本文提出了一个基于深度生成模型的图像生成网络,结合卷积神经网络的归纳偏置和自回归的序列建模,通过多重领域特征的变量规范,设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差,取得了当前同类算 - CVPR利用扩散模型对输入噪声进行调控以进行可控图像生成
通过给扩散模型输入精制的噪声来提高其控制性,从而可以产生基于语义属性的图像。
- CVPR方向性 GAN:一种新的生成网络调节策略
利用生成对抗网络(GAN),我们提出了一种基于给定语义属性的条件生成图像的简单而新颖的调节策略,叫做 Directional GAN,在多个公共数据集上获得了平均 86.4%的准确率。
- 对抗性文本到图像合成:综述
该论文综述了生成对抗网络在文本到图像合成方面的发展以及面临的挑战,提出了一些研究方向,包括评估指标、数据集和模型架构设计等方面的改进。
- MichiGAN:面向人像编辑的多输入细节调整发型生成
本文提出了多输入头发图像 GAN (Multi-Input-Conditioned Hair Image GAN)——MichiGAN,通过明确头发的四个正交属性,包括形状、结构、外观和背景,设计对应的条件模块来表示、处理和转换用户输入,并 - ECCV通过 SegVAE 进行可控图像合成
SegVAE 是一个基于变分自编码器的条件图像生成网络,快速合成逼真的语义地图,为各种图像处理、编辑应用提供了良好的基础。
- ContraGAN: 基于对比学习的条件图像生成
本文提出了 ContraGAN 的方法,利用条件对比损失函数,考虑同一批次中多个图像嵌入之间的关系 (data-to-data relations) 和数据与类的关系 (data-to-class relations)。实验结果表明,Con - ECCV弱监督图像生成中的风格和语义控制
我们提出了一种弱监督方法,实现复杂场景下的有条件图像生成,在该方法中,用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别,以及文本描述或属性来控制局部和全局风格,同时引入语义注意力模块来支持文本描述的条件,该 - ICLR基分解的随机条件生成网络
本文介绍了 BasisGAN,一个基于随机条件的多模式图像生成器,该生成器通过采样基元素而不是滤波器来大大降低建模参数空间的成本,并在图像多样性和保真度上没有牺牲,同时证明了这种采样如何影响所生成图像的外观。