- 基于中层输入生成的层次化生成对抗学习在城市环境自动驾驶中的应用
本文提出了一种基于层次化对抗性模仿学习的架构 hGAIL,该架构可以将车辆的传感器感知直接映射到低层动作,并同时学习到中层的输入表征,实现了无人驾驶车辆的自主导航。
- 模型拼接和可视化:如何实时倒置 GAN 生成器中的网络
本研究提出了一种快速准确的方法,利用卷积将分类和语义分割网络的激活与 GAN 生成器拼接起来,以快速提供附加信息来解释深度学习方法所做出的决策。我们在动物图像和数字病理学扫描的真实组织样本上测试了我们的方法,在这些数据集上,我们的方法与已建 - 情感和说话者条件下的语速生成
使用 CREMA-D 数据集,利用带情感的 GAN 生成相对于中性语音的音素长度,可以提供给 TTS 系统以生成更具表现力的语言。使用 IMLE 训练的生成模型也能够实现更好的中性语音机器生成,但仍需进一步主观评价的研究。
- 一种基于新型生成对抗网络的短时 SSVEP 数据扩展框架
本文提出了一个基于 GAN 的端到端信号转换网络 TEGAN,用于数据长度扩展,能够生成人工 SSVEP 信号,应用于频率识别和深度学习等任务,能够显著提高传统和深度学习方法在有限校准数据下的分类性能,缩短校准时间并降低成本,具有高度实用性 - 3DHumanGAN: 面向照片般逼真的三维感知人体图像生成
本文提出了一种名为 3DHumanGAN 的生成对抗网络(GAN),用于合成全身人体的图像,具有在不同视角和姿势下一致的外观。该模型采用了 2D 卷积背骨由 3D 姿态映射网络调制的生成器架构,能够生成具有 3D 人体先验知识和一致性的逼真 - QC-StyleGAN -- 品质可控的图像生成与操作
本文提出了一种新的 GAN 结构 QC-StyleGAN,可以控制生成图像的质量以及处理低质量图像,包括去噪、去模糊、去压缩等。其基于 StyleGAN 家族模型,可以实现图像剪裁、转移、插值等应用。
- ICLR用梯度匹配学习对部分分割进行注释
本文提出了一种半监督方法,使用预训练 GAN 生成图像,并使用自动注释器为 GANN 预测的图像标注对象的部分,有效地降低了有限标记示例下分割误差。
- 自适应感知核调制的小样本图像生成
本文针对 few-shot image generation 问题,提出了一个 Adaptation-Aware kernel Modulation (AdAM) 方法,能够充分利用源域和目标域数据进行迁移学习,以生成更多和多样化的样本,实 - 高分辨率全球降水预测的生成建模
本研究使用生成对抗网络(GAN)优化了一种最先进的深度学习降水模型(FourCastNet),从而能更有效地捕捉极端百分位的全球降雨量,预测准确率优于其他数值天气模型。
- ECCVPalGAN:基于调色板生成对抗网络的图像上色
提出了一种新的基于 GAN 的上色方法 PalGAN,该方法通过集成调色板估计和色彩注意力来解决多模糊性和色彩渗透问题,实验表明该方法在定量评估和视觉比较方面均优于现有方法。
- 多说话人神经语音合成的多任务对抗训练算法
本研究提出了一种基于多任务对抗训练的多说话者神经语音合成模型的新型训练算法,能够提高合成语音的质量,并能够推广到未见过的说话者。
- 利用选定方法改善具有弱可识别特征的小物体识别
通过使用基于 GAN 的增强方法,可以改善在 VOC Pascal 数据集上的小物体检测。实验证明,该方法可以提高小物体检测的精度,并且与其他流行的增强策略(如物体旋转和平移)相比表现更佳,基于 FasterRCNN 模型实现。
- ECCV使用有限的查询和 GAN 进行无限制黑盒对抗攻击
本文通过使用 GAN 生成无约束对抗样本并在潜空间中成功操纵潜向量以欺骗分类模型,提出了一个新的方法:Latent-HSJA,该方法在黑盒设置中只能访问分类模型的前 k 项决策,是对少量查询的分类模型强度评估的有效方法。
- 基于生成式对抗网络从非成对音频和音位序列学习电话识别
本文研究如何从无匹配的语音和音素序列中直接学习,设计了一个两阶段迭代框架,其中第一阶段采用 GAN 训练来寻找语音和音素序列之间的映射关系,第二阶段引入 HMM 模型来训练生成器的输出,提高了性能并为下一次迭代提供更好的分段。在实验中,我们 - ECCV生成多层平面图像:使 2D GAN 具备 3D 感知能力
这篇论文通过对传统的 GAN 模型 StyleGANv2 进行尽可能少的改动,引入一个多平面图像生成器和姿态条件鉴别器,实现了一种名为 “生成性多平面图像” 的输出,它的渲染不仅高质量而且保证视角的一致性,并能够在不到半天的时间内以 $10 - ECCV2D GANs 遇见无监督单视角 3D 重建
提出了一种新的基于图像的神经隐式场方法,该方法利用基于 GAN 生成的多视图图像的 2D 监督,并通过不确定性模块来提高重构性能,从而实现了泛化物体的单视角 3D 重构。
- 神经网络 A * 搜索的路径规划再现性报告
本文为 2021 年 ICML2 “机器学习可重复性挑战赛” 之一 “Path Planning using Neural A* Search” 的可重复性报告,基于原始论文提出的神经 A * 规划器,通过重新实现模型并复现原始论文中的数据 - AAAIAvocado: 无伪影语音编码器的生成对抗网络
本研究提出了一种名为 Avocodo 的基于 GAN 的语音合成系统,它使用多种鉴别器来评估语音波形,并利用伪四象限镜滤波器组来避免损失波,该系统在数字和人类主观测试中均表现出较高的音质。
- 基于潜变量的密度估计
本研究提出了一种新的生成模型 LED,它不仅可以高效地生成样本,还可以进行高效的密度估计,并通过最大化判别器输出的对数似然来鼓励生成数据的多样性,同时构建一个流式生成器,在保持良好的生成质量的同时,可以计算生成样本的准确概率。
- StudioGAN:图像合成 GAN 的分类和基准
该研究提出了一个基于 7 种 GAN 架构、9 种调节方法、4 种对抗性损失以及 13 种正则化模块、3 种可微增强方法、7 种评估指标和 5 种评估指标的开源库 StudioGAN,通过在多种数据集和三种不同的评估骨干 (Inceptio