渐进式扩展掩膜区域学习修复
提出了一种基于 DDPM 的高效图像修复方法,包括三种加速策略:使用轻量级扩散模型(LWDM)减少参数数量、引入 DDIM 的跳步采样方案用于去噪过程、通过减少图像分辨率和减少去噪步骤来加速推理的 CFE 方案,经过广泛实验在面部和通用图像修复任务中实现了与竞争方法相当的 60 倍加速性能。
Jul, 2024
本文综述了当前图像或视频修复方法,特别关注基于 Transformer 的技术,旨在突出显著改进的方法,为图像或视频修复领域的新研究者提供指南,并通过其架构配置、损伤类型和性能指标对基于 Transformer 的技术进行分类。另外,我们提出了当前挑战的整理综合,以及对图像或视频修复领域未来研究的建议。
Jun, 2024
本文提出了一种用于图像修复的轻量级扩散模型,可以在单幅图像或几幅图像上进行训练,结果表明我们的方法在某些情况下可以与大型先进模型竞争,特别适用于与标准学习数据库中的 RGB 图像不同的图像获取模态,并在纹理图像、线条图像和材料 BRDF 等三个不同情境中取得了逼真度方面的最新成果,与相应方法相比计算负荷大大减少。
Jun, 2024
在图像和语言领域,生成式人工智能已经引起了很大关注,使用转换器神经网络持续主导最新技术。然而,将这些模型应用于时间序列生成的研究尚不充分,而这对于机器学习、隐私保护和可解释性研究具有极大的实用价值。本综述通过识别转换器、生成式人工智能和时间序列数据这一稀缺研究子领域,回顾了已有的研究工作。回顾的工作方法多样,但尚未就该领域提出解决问题的确定答案。在最初进行的调查中,除了转换器之外,还遇到了 GANs、扩散模型、状态空间模型和自编码器。虽然该领域还没有提供确定性的洞见,但是已经回顾的工作具有很大的启发性,并提供了一些建议的最佳实践和有价值的未来工作建议。
Jun, 2024
FaceCom 是一种基于网格生成网络的 3D 人脸形状补全方法,能够高精度地处理任意形式的不完整人脸输入。该方法通过图像修复指导,使用优化方法适应不完整的人脸输入,进一步通过后处理步骤提高补全结果的质量。FaceCom 在医学义肢制造和不完整扫描数据的注册中具有良好的应用潜力,实验证明其在适应性和形状补全任务上具有出色的性能。
Jun, 2024
通过生成可扩展的开放词汇区域 - 文本对,RTGen 能够提高开放词汇物体检测的性能,其中文本到区域的生成是通过图像修复以及布局引导来实现的,区域到文本的生成则是通过基于多个提示进行区域级别图像字幕并根据 CLIP 相似性选择最佳匹配文本完成的,并且引入了适应不同定位质量的定位感知区域 - 文本对比损失用于侦测训练。大量实验证明 RTGen 作为可扩展、语义丰富和高效的来源,能够在利用更多数据时持续提高模型性能,并且相较于现有最优方法能够提供卓越性能。
May, 2024
通过从有噪声数据中借鉴逆交叉熵(RCE)的方法将其适应于强化学习,定义了一种对称的 RL 损失,从而提高了 RL 训练的稳定性。在离散动作任务(Atari 游戏)和连续动作空间任务(MuJoCo 基准和 Box2D)中进行了实验,并通过改进 RLHF 任务的性能来验证对于大型语言模型使用 SPPO 的对称 RL 损失的好处,如 IMDB 正面情感和 TL;DR 摘要任务。
May, 2024