- Semantica: 一种适应性图像条件扩散模型
我们研究了在不进行微调的情况下将图像生成模型适应于不同数据集的任务。为此,我们介绍了 Semantica,这是一种基于图像语义条件的扩散模型,能够根据条件图像的语义生成图像。Semantica 仅通过网络规模的图像配对进行训练,即它接收来自 - GeoDiffuser:基于几何的扩散模型图像编辑
GeoDiffuser 是一种优化为基础的方法,将常见的二维和三维基于图像的对象编辑功能统一为单一方法,通过将图像编辑操作视为几何变换,并将其直接合并到扩散模型的注意力层中隐式执行编辑操作,以实现保持对象风格并生成合理图像的目标函数进行训练 - D$^3$: 通过学习差异扩大深伪检测规模
通过引入并行网络分支,以失真图像作为额外的差异信号来补充原始图像,我们的 Discrepancy Deepfake Detector (D^3) 框架能够学习来自多个生成器的通用特征,从而在对抗各种生成模型时实现更好的泛化和鲁棒性。
- CVPR条件感知神经网络对图像的控制生成
使用 Condition-Aware Neural Network(CAN)方法,通过动态操纵神经网络的权重来控制图像生成过程,CAN 在 ImageNet 上的类别条件图像生成和 COCO 上的文本到图像生成方面实现了显著的改进。
- ICLRSTREAM: 视频生成模型的时空评估与分析指标
我们提出了 STREAM,这是一种新的视频评估度量,可以独立评估视频的时空特性,并提供有关视频生成模型改进的见解。
- 仅使用卷积是否能生成逼真的手部形象?
通过在卷积层中引入单一输入通道,加入与相对 $n$ 维笛卡尔坐标系相关的信息,我们展示了如何改进生成对抗网络(GAN)和变分自动编码器(VAE)生成的手部和面部图像的质量。
- 通过像素级梯度剪裁提升高分辨率三维生成
通过像素级梯度剪裁(PGC)方法,提高现有高分辨率三维生成模型的性能,以改进高分辨率三维物体渲染的综合质量。
- Vendi 评分的近亲:一系列基于相似度的多样性度量方法,适用于科学与机器学习
通过使用相似性,将 Vendi 分数扩展成一系列灵敏度不同的多样性度量方法,用于改进分子模拟、研究图像生成模型的行为,解决在科学领域中准确测量多样性的问题。
- 通过个性化生成器进行面部再现
本文提出利用个性化生成器进行面部复原的新方法,通过采用个性化的生成器,我们可以拍摄一个短且多样化的自我扫描视频以训练我们的生成器,并结合精心设计的潜在优化来确保图像保持身份,并展示我们的方法在面部复原方面具有最先进的性能,同时可以进行语义编 - 用于检测 GAN 操作的多光谱卫星图像的单类分类器
本论文使用 VQ-VAE 2 算法提出了一种仅基于精确图像的单类别图像检测器,该检测器能够在不同领域和架构下检测到生成图像,相比于二类别分类器具有更强的泛化能力。
- MM鲁棒量化向量变分自编码器
本文提出了一种基于 VQ-VAE 的鲁棒生成模型(RVQ-VAE),使用两个分离的码本进行训练以处理数据集中可能的异常值,并采用加权欧几里得距离来量化数据点以确保正确的匹配,实验证明此模型能够在大量数据点受到污染时从内固定集合中生成例子。
- ICCV基于对角注意力和样式的 GAN 实现图像生成与转换中内容和风格解耦
本研究提出了新的层级自适应对角空间注意力 (DAT) 层,用于分离图像生成模型中的空间内容和样式,并可以灵活地控制多域图像翻译任务中的内容和风格。实验表明,该方法在分离和控制生成图像中的空间特征方面优于现有模型。
- ICCV通过因果归因解释视觉模型
本文提出了基于干预因果模型的解释方法来计算特征变化对输出的影响,从而得到新的样本。同时也发现在生成图像方面当前模型的局限性。