- 压缩光场显示中的图像质量、均匀性和计算改进:基于 U-Net 的研究
我们采用 U-Net 模型对压缩光场合成进行研究,与基于堆叠卷积神经网络和迭代算法的方法相比,该方法具有更好的图像质量、均匀性和较少的计算量。
- 基于深度平衡模型的一步扩散蒸馏
本论文介绍了一种简单但有效的方法,即将扩散模型直接从初始噪声提炼到生成的图像,使用深度平衡模型作为提炼架构。该方法通过仅使用扩散模型中的噪声 / 图像对进行离线训练,在与现有一步方法相当的训练预算上实现了卓越的性能。
- 通过重采样纠正扩散生成
本文提出了一个粒子滤波框架,通过明确地减少分布差异来有效解决图像生成中出现的目标缺失和图像质量问题。实验证明,我们的方法可以在各种图像生成任务中有效纠正目标缺失错误并提高图像质量。
- 损伤生成对抗网络:一种用于不平衡数据的生成模型
本研究探讨了生成对抗网络(GANs)在不平衡数据集中的应用,旨在增强 GANs 在此类数据集中的性能和稳定性。通过引入一种称为 Damage GAN 的新型网络架构,该架构建立在 ContraD GAN 框架之上,无缝融合了 GANs 和对 - 现实的画布,语言的画笔:从单目视频中塑造 3D 头像
ReCaLab 是一个可完全区分的流程,通过学习高保真度的三维人体化身,仅从单一的 RGB 视频中生成。
- MMTMSR:用于超分辨率的小型多路径卷积神经网络
本研究提出了一种名为 TMSR 的小型多路径 CNN 超分辨率方法,主要关注在 5k 参数以下的小型 CNN 超分辨率方法,其主要贡献在于改进的多路径学习和自定义激活函数。实验结果表明,TMSR 在 5k 参数以下与相关作品相比,获得了有竞 - 单图像生成说话人动漫的改进模型及其蒸馏
我们研究了使用单一动漫角色图像实时控制角色模型的问题,并通过提出新的构成网络架构和技术改进现有系统,使其在保持图像质量的同时,能够在实时应用中生成高质量动画帧。
- 推导出您的布局:从大型语言模型中归纳出用于文本到图像合成的布局模式
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
- 利用共享表示优化去噪扩散概率模型
本研究提出一种名为 SR-DDPM 的新方法,通过利用少样本表示学习技术,解决面临有限数据的多任务图像生成挑战,以提高图像质量,并在标准图像数据集上对其进行评估,发现其在 FID 和 SSIM 指标上优于无条件和有条件的 DDPM。
- 理解 CLIP 对图像压缩的脆弱性
通过分析 CLIP 模型的脆弱性,我们揭示了其中关于图像质量和压缩对零样本图像识别准确性影响的本质,并在 CIFAR-10 和 STL-10 数据集上进行了广泛评估,从而为改进 CLIP 和其他视觉语言模型的鲁棒性提供了基础。
- 适用于高效超分辨率的无参数关注网络
单幅图像超分辨率是低层次计算机视觉中的关键任务,该论文提出了 Swift Parameter-free Attention Network (SPAN),使用参数自由的注意力机制实现高效的超分辨率模型,平衡参数数量、推断速度和图像质量,实现 - FedDiff:基于扩散模型的多模态和多客户联邦学习
本研究提出了一种名为 FedDiff 的多模态协同扩散联邦学习框架,旨在解决多模态遥感数据融合中的安全和效率通信问题,并通过定性和定量实验证实了该框架在图像质量和条件一致性方面的超越优势。
- DIFFNAT: 使用自然图片统计方法改善扩散图像质量
提出一种广义的 “自然度” 保持损失函数,即峭度集中(KC)损失,可用于任何标准扩散模型管道,以提高图像质量,并在个性化少样本微调、无条件图像生成和图像超分辨率等任务中验证其有效性。
- 文本到图像模型的整体评估
对于最近的文本到图像模型,我们缺乏对其能力和风险的全面定量理解。为了填补这个空白,我们引入了一个新的基准,即文本到图像模型的整体评估(HEIM)。我们鉴定了 12 个方面,包括文本与图像的对齐、图像质量、美感、原创性、推理能力、知识、偏见、 - 在 CPU 上的扩散模型的有效量化
通过结合量化感知训练和蒸馏方法,我们提出了一种新的扩散模型量化方法,可以在维持高图像质量的同时,在 CPU 上展示出高效推断能力。
- 心脏扩散加权成像的高分辨率参考图辅助体积超分辨率
该研究利用基于深度学习的方法提高扩散张量心脏磁共振(DT-CMR)图像质量,实现体积超分辨率,并证明其在心脏超分辨率图像重建中的推广性。
- 具信息不确定性的超声图像的扩散重建
借鉴扩散模型的进展,我们提出了一种混合方法以改进超声成像质量,通过适应性去噪扩散恢复模型结合超声物理学和基于学习的方法,并在模拟、离体和体内数据上进行全面的实验,证明其较单一面波输入和现有方法相比实现了高质量的图像重建。
- LoMAE:低剂量 CT 去噪的低层次视觉遮蔽自编码器
通过引入一种名为 LoMAE 的低水平视觉 MAE 模型,本研究展示了一种提高 transformer 去噪性能的方法,极大地减少了对干净数据的依赖,并在不同噪声水平下展现了显著的鲁棒性和普适性。
- 将扩散模型的 ODE 求解器提炼为更小的步骤
提出了一种简单的蒸馏方法,通过优化 ODE 求解器而不是训练去噪网络,来提高扩散模型的采样速度和图像质量。通过蒸馏过程,D-ODE 求解器在生成样本时优于其他 ODE 求解器。
- 基于信息互补的可见光和近红外图像融合算法
设计了一种从物理信号级别进行互补融合的模型,利用可见光和近红外传感器的光谱特性来增强图像质量,并在实验证明该算法能够很好地利用光谱特性和信息互补性,避免色彩不自然的同时保持自然感,优于现有技术。