- 将扩散模型融合为条件生成对抗网络
我们提出了一种方法将复杂的多步扩散模型提炼为单步有条件生成对抗网络学生模型,从而大大加速推理过程,同时保持图像质量。我们的方法将扩散提炼解释为一种对应的图像到图像转换任务,使用扩散模型 ODE 轨迹的噪声到图像对。为了进行高效的回归损失计算 - Pix2Gif: 基于动态扩散的 GIF 生成
我们提出了 Pix2Gif,一种用于图像到 GIF(视频)生成的运动引导扩散模型。通过将任务表述为由文本和运动幅度提示引导的图像转换问题,我们以不同的方式解决了这个问题。为了确保模型遵循运动引导,我们提出了一种新的运动引导变形模块,以在两种 - 具有感知损失的扩散模型
通过引入自我知觉目标,将扩散模型训练中使用的有噪自动编码器目标与无监督感知网络训练中使用的去噪自动编码器目标关联,我们提出了一种新的扩散模型,可以生成更真实的样本,而不会牺牲样本多样性。
- 利用 CycleGAN 和感知损失进行超声图像增强
通过开发一种 CycleGAN 模型,增强外科超声图像的感知损失方法,有效地解决了手持设备产生低质量图像的硬件限制以及非对齐输入超声图像配对的常见挑战,从而显著提高了医学图像技术。
- 一种纹理自适应聚合的基于参考图像的超分辨率特征重用框架
本文提出了一种特征重用框架,用于引导逐步纹理重建过程,减少感知损失和对抗性损失的负面影响,并通过单图特征嵌入模块和纹理自适应聚合模块来进行准确的对应匹配和纹理信息传输,从而增强了参考纹理的利用并减少了误用。
- OR-NeRF:由多视角分割指导的神经辐射场,用于删除 3D 场景中的对象
本文提出了一种名为 OR-NeRF 的新型对象移除流水线,它可以在单个视图上通过点或文本提示从 3D 场景中移除对象,并在更短的时间内实现更好的性能。
- WSSL:图像修复的加权自监督学习框架
本文提出了基于加权自监督学习(WSSL)的图像修复框架,使用多个预训练任务来学习特征,再应用于图像修复任务中,同时设计一个包含重构和感知损失函数的新型损失函数用于图像修复,实验证明该方法优于现有方法。
- CVPR提高图像质量的曝光校正模型
提出了一种端到端的曝光校正模型,采用感知损失,特征匹配损失和多尺度辨别器来提高生成图像的质量并使训练更加稳定,实验结果表明其有效性。在大规模曝光数据集上,取得了最新的最优结果,并研究了图像曝光设置对画像抠图任务的影响,发现曝光过度和曝光不足 - CVPR基于分割指导 GAN 的双域图像合成
本文介绍了一种基于分割引导的方法来合成包含两个不同领域特征的图像,该方法结合了少样本风格生成对抗网络(few-shot StyleGAN)和单次语义分割技术,其中使用了分割引导的感知损失函数来使得生成图像的质量达到一定的水平,并对生成的双领 - 用傅里叶卷积实现稳健的高分辨率大面罩修复
提出了一种基于快速傅里叶卷积(FFC)的图像修复网络结构的新方法 —— 大掩模修复(LaMa),该方法使用高接受场感知损失和大型训练掩模使网络具有更大的接受场,通过在各项数据集上的实验得到了优越的性能。
- 基于注意力机制的多参考学习用于图像超分辨率
本文提出了一种新颖的基于注意力的多参考超分辨率网络(AMRSR),该网络可以在保持空间相干性的同时,通过学习从多个参考图像中自适应地传输最相似的纹理到超分辨率输出来提高细节。与现有的参考超分辨率方法相比,多参考和分层注意力采样方法的结合实现 - ICCVHierarchical Conditional Flow:一种用于图像超分辨率和图像缩放的统一框架
该研究提出了一种称为 hierarchical conditional flow (HCFlow) 的统一框架,它可以同时用于图像超分辨率和图像缩放任务,采用正则化流模型,并且采用感知损失和 GAN 损失来提高性能,在广泛的实验中展示了最先 - MMI2V-GAN:无配对红外 - 可见视频转换
该研究提出了一种基于 I2V-GAN 的视频翻译方法,可以生成细粒度和时空一致的可见光视频。该方法采用三种约束,包括对抗损失、循环一致性和相似性约束,同时提供了一个新的 IRVI 数据集,以提高这方面的研究水平。
- 用于人脸照片 - 素描合成和识别的身份感知 CycleGAN
本研究提出了一种基于 IACycleGAN 模型的人脸照片 - 草图合成算法,采用感知损失监督图像生成网络以改进 CycleGAN,在关键的面部区域(如眼睛和鼻子)的合成过程中更加注重识别,同时还使用合成样本和真实样本的三元组损失增强了识别 - CVPR建模结构化输出依赖的通用知觉损失
研究结果表明,深度卷积神经网络 (CNNs) 的结构能够捕捉到多层次变量统计之间的依赖关系,从而消除了以往对于卷积神经网络预训练权重和特定网络结构(通常为 VGG) 的假设,提供了更广泛的应用空间。在实验中,使用扩展的随机感知损失可以更好地 - CVPR鲁棒性骨骼动作识别在对抗攻击下的理解
文章研究了先进的行动识别器对抗性攻击的鲁棒性,并提出了一种基于 3D 骨架运动的攻击方法,该方法包含一种创新的感知丢失,保证攻击的不可察觉性,实证研究表明我们的方法对于白盒和黑盒情况均有效。
- AAAI分离与细化:用堆叠式注意力引导的 ResUNets 移除盲目单张图像可见水印
使用多通道注意力与多感知损失的多任务网络,通过两个阶段的过程,提出了一个架构鲁棒性更强且盲目去除可见数字水印的算法,该算法在四个不同数据集下比其他方法表现更突出。
- ICLR语义图像合成只需要对抗监督
通过重新设计辨别器作为语义分割网络,直接使用给定的语义标签映射作为训练的地面实况,通过提供更强的监督和对空间和语义感知的辨别器反馈以及通过向生成器注入 3D 噪声张量进行全局和局部采样,我们能够合成更高保真度的图像,并实现高质量的多模态图像 - 基于语音帧和语音风格重构损失的富表现力 TTS 训练
该研究提出了一种基于 Tacotron 的文本到语音系统的新训练策略,通过使用感知损失函数实现了在样式重建损失下的语音风格的习得,最终在自然度和表现力上都实现了非凡的性能,该模型是首次将感知质量作为损失函数并纳入 Tacotron 训练,从 - 自然视频中大幅度改变帧的照片真实视频预测
通过使用深度残差网络结构,利用分层预测和自上而下的连接方法,结合对抗和感性代价函数,提高了基于视频预测的性能以及更真实的图像细节和纹理,特别是在快速相机运动下,未来视频帧的预测性能优于现有基线。