- GAN 能否听见?从扩散模型中重获无条件语音合成
AudioStyleGAN 是一个基于生成对抗网络的语音合成模型,利用噪声转换为分离的潜在向量,并引入新技术成功训练模型和实现不需要显式训练的语音转换和编辑,取得了 Google Speech Commands 数据集上的最佳效果。
- 基于解缠技术的内容 - 情绪二元建模,用于共情式对话
本论文旨在为共情性回应生成设计一种能够通过内容和情感视角对话历史进行编码的框架,从而生成包含内容和情感信息的回应,实验结果表明,该框架在自动和人类评估指标上均取得了最优结果,同时比先前的方法生成了更多的共情回应。
- 针对基于物体的深度主动推理模型的形状和姿势分离
本文通过使用深度学习方法进行不同因素的状态空间分解,提出了一种在 3D 物体表示中使用的更好的主动推理模型,以降低模型复杂度并获得更好的解缠实时空。
- ICLRGromov-Wasserstein 自编码器
本文提出了一种新的表征学习方法,Gromov-Wasserstein Autoencoders(GWAE),通过将 variational autoencoding scheme 与 Gromov-Wasserstein metric 相结 - ECCV探索基于梯度的 GAN 多方向控制
该论文提出了一种基于梯度信息的新方法,探索生成对抗网络 (latent space) 中的非线性控制,实现了多方向控制和有效解缠,这使得 GANs 的可控生成问题得到了解决。
- 朝向解缠语音表示
本研究构建了一种联合建模的声学表征学习任务,强调去耦合(disentanglement)声音信号的相关和无关部分,然后证明这些理想的、去耦合的方案具有独特的统计性质,并在训练期间强制执行这些性质,使平均 WER 相对提高了 24.5%,这提 - ECCV神经网络中的知识分解
本文提出一种新的知识转移任务 —— 知识因式分解(KF),旨在为预训练的神经网络分解成多个因式网络,每个网络处理一项具体任务,并保持任务特定知识因式化。实验表明,基于该模型的因式网络在任务执行、模块化、迁移学习等方面均具有较好的表现。
- 负样本无关对比学习的解缠实证研究
本文提出了一种新的基于互信息的解缠度度量来研究负样本自由对比学习方法的解缠特性。作者在高维表示空间中将负样本自由对比学习方法引入解缠表示学习领域,并通过对流行的合成数据集和真实世界 CelebA 数据集的实验表明,该方法可以学到一个良好的解 - AutoLink: 通过关键点链接实现人体骨骼和物体轮廓的自监督学习
本文提出一种基于自监督学习的方法,通过使用由直线相连的 2D 关键点图解开结构与外观的耦合,进而学习物体的结构表达,并利用所学习的结构表达实现自动人体姿态估计等任务。
- 监督学习中高效表示识别
本文针对非线性独立成分分析的负面结果,试图研究在没有条件独立性的辅助信息下如何实现解缠以及如何减少需要的辅助信息量。在一类模型中,我们证明理论上和实验上都可以实现解缠,即使辅助信息的维度远小于真实潜在表示的维度。
- CVPR从 2D 图像中分离属性流进行 3D 形状重构
该论文提出了一种通过从语义层面分离和提取 2D 图像的语义属性,然后将这些分离后的语义属性整合到 3D 形状重构过程中的方法,该方法可以更准确地重建 3D 形状,并通过对 ShapeNet 数据集的拟合表明了其优越性和泛化能力。
- 医学应用中不相干因素分离方法综述:解开医疗生成模型的难题
本文综述了流行的生成模型,讨论了去解开深层神经网络的黑盒问题,通过分离潜在表征,提高对医学数据生成过程的控制和可解释性,从而在不侵犯病人隐私的前提下合成人工医学数据集,发掘数据生成特征,以及在医疗应用中获取新的结论。
- 解缠自编码器 (DAE)
本文介绍了一种使用对称变换原则的新型非概率解缠框架,用于对自动编码器中的潜在空间进行因式分解(或解缠),旨在实现不使用正则化器基于自动编码器的解缠,该模型与 7 种最先进的基于自动编码器的生成模型进行了比较,并根据 5 个监督解缠度量进行了 - ICLR基于张量积表示的环面上无监督解缠
该研究提出一种基于张量乘积结构的自编码器表示学习方法,其潜在空间具有基于环面的分布方式,能够有效地捕捉生成因素并实现变量的解耦。实验证明该方法在无监督学习中具有良好的完整性和信息量,代码开放在 URL 中。
- AAAI开放混合域适应语义分割的振幅谱变换
本文提出了基于振幅谱变换的特征空间 AST 的 OCDA 简化自适应技术,隐式地完成跨域特征风格化和域内容规范化,同时在场景分割基准测试中领先于之前的技术。
- 哪种风格让我更有魅力?基于可解释控制发现的 StyleGAN 因果解释
本文在使用 StyleGAN2 生成人脸的场景下提出了一种新方法,通过利用现有人脸分析模型(例如人脸解析器和人脸关键点检测器),对潜在子空间的语义进行解缠,并且提供了在此过程中的丰富潜在空间控制,同时提出了一种新的透视法来解释 CNN 分类 - AAAIGAN 中潜在发现的自监督增强
本文提出了一种使用自监督方法训练的规模排序估计器(SRE)来增强现有无监督解缠技术获得的方向的解缠效果。使用定性和定量评估方法证明了该方法可以显著提高各种数据集中的解缠效果,并且还表明学习得到的规模排序估计器可以用于执行基于属性的图像检索任 - CVPRSemanticStyleGAN:学习组合生成先验进行可控图像合成和编辑
通过训练一个生成器来分别对局部语义部分进行建模,控制不同区域的纹理并且实现更加细粒度的合成和编辑,SemanticStyleGAN 作为具有内置解缠结的通用先验模型,可以促进基于 GAN 的应用程序的发展并实现更多的下游任务。
- 场景生成的组合变形器
GANformer2 采用显式和强有力的结构先验,通过一个序列式的过程合成图像,在多个数据集上成功表现出了最先进的性能,该模型从初始草图到最终的高清晰度图像,提供了图像产生的深入洞察。
- MOST-GAN: 用于解耦脸部图像操作的 3D 可塑造风格 GAN
MOST-GAN 使用 3D 形态模型耦合现代化 2D 变形网络实现面部图像生成、控制和逼真操作。