- 超网络中的注意力
使用超网络将多头注意力重新定义为低维潜在代码来加强 Transformer 的组合泛化能力,在抽象推理任务上展示了模型规模和数据扩展如何实现组合泛化并生成功能结构化的潜在代码。
- LatentSwap:一种高效的人脸换脸潜码映射框架
提出了一种简单的人脸交换框架 LatentSwap,用于生成给定生成器的人脸交换潜在编码。利用随机采样的潜在编码,该框架轻巧且不需要数据集,只需使用预训练模型进行训练过程即可。损失目标只包括三个项,能够有效控制源图像和目标图像之间的人脸交换 - CNS-Edit:通过耦合神经形状优化进行 3D 形状编辑
本文介绍了一种基于耦合表示和神经体积优化的新方法,在潜在空间中隐式地进行 3D 形状编辑。该方法通过耦合神经形状(CNS)表示来支持 3D 形状编辑,并且通过 CNS 优化来实现多种编辑结果。实验证明,该方法具有强大的能力,优于现有方法。
- ICCVFaceCLIPNeRF:使用可变形神经辐射场实现基于文本的 3D 人脸操控
为了操控 3D 重建的人脸,我们提出了一种使用单个文本进行操作的方法,通过训练场景操控器和空间变化的潜在代码来实现,进而在文本驱动下进行操作,实验证明了这种方法的有效性。
- DiffuseGAE:通过解耦表示的可控高保真图像操作
本篇研究介绍 Diff-AE 与 GAE 两种基于 Diffusion probabilistic models 的编码器模型,实现由多个属性进行图像编辑和生成,大大降低了计算需求,并达到了相当不错的效果,对潜在特征得到了更好的分离。
- CVPR利用未知姿态分布学习三维感知图像合成
本文提出了一种名为 PoF3D 的方法,通过自动学习真实姿态分布,使生成辐射场摆脱了先前在训练集上预估的 3D 姿态分布的先验要求,同时使用 pose-aware 辨别器,并通过对抗训练的方式进行学习,从而实现了不使用 3D 姿态先验条件下 - PCAE: 可控文本生成的插件条件自编码器框架
我们提出了一个灵活的半监督文本生成模型 Plug-in Conditional Auto-Encoder(PCAE),它可以通过全局潜在空间到指定的局部潜在空间,以高度可操纵、句法多样和时间高效的方式生成文本,使用最小标记样本。
- 独立机制分析在表示学习中的稳健性探究
本研究旨在探讨通过 Independent Mechanism Analysis (IMA) 方法对混合物进行独立成分分离的效果,结果表明该方法能够有效地恢复真实的潜在源,即使混合函数在一定程度上违反了该方法的假设。
- DGPO: 通过多样性指导的策略优化发现多种策略
本文提出了一种基于多样性导向的动态规划策略优化算法(DGPO),该算法使用多样性对象来指导一个隐式编码策略,从而在单一的训练过程中学习出多组不同的策略,并将受外部激励约束的优化问题作为概率推理任务来解决,并使用策略迭代来最大化所得的下界。实 - ICLR基于生成对抗网络的对比细粒度类聚类
本研究提出了一种基于信息生成对抗网络和对比学习的无监督细粒度图像聚类方法,旨在学习特征表示,促进数据集在嵌入空间中形成明显的聚类边界,同时最大化潜在编码与图像观测之间的互信息。实验结果表明,该方法在四个细粒度图像数据集上实现了最先进的聚类性 - 用显式变形场增强隐式神经形状表示
本文探讨一种新方法 -- 变形感知正则化 -- 以更好地学习隐式神经表示形式,使其对隐式表示形式的变形具有可接受的合理性,并演示了其在如柔性变形等问题中的良好效果。
- CVPR深度生成视图集成
使用预训练生成器,通过对潜在代码进行扰动以创建自然图像的变化,然后使用 StyleGAN2 进行分类任务,并发现该过程存在多个设计决策,包括扰动程序、增强图像和原始图像之间的加权以及对合成图像进行训练的分类器等,最终发现,虽然使用基于 GA - E2Style:提高 StyleGAN 反演的效率和效果
该研究针对 StyleGAN 反演问题,提出了一种效率和效果均有显著提升的前向网络 E2Style,通过浅层 backbone、多头设计,多阶段细化等方式,结合了基于优化与前向方法的优点。实验结果表明 E2Style 在效率和结果质量上较现 - ICCV基于残差框架的迭代精化 StyleGAN 编码器
本研究探讨了一种名为 ReStyle 的迭代残差编码器,用于将图像反演为对应的潜在编码,以便于对真实图像进行操作和利用网络所学的语义。相比现有方法,ReStyle 的精度有所提高而推理时间基本不变,同时对其进行的评估和分析也表明其相对于现有 - ShaRF: 单视角形状有条件的辐射场
本文介绍了一种基于神经网络的方法来从单张图片中估计物体的 3D 形状和外观,将其分解成形状和外观两个隐变量,通过优化这两个变量和网络参数,可以精准地还原输入物体,并能够处理训练领域之外的真实图像。
- 风格干预:如何通过基于风格的生成器实现空间脱耦?
本研究探索了利用预训练的基于样式生成器的 “样式空间” 控制本地翻译的可能性。提出了一种名为 “Style Intervention” 的轻量级优化算法,用于在高分辨率图像上进行面部属性编辑,证明了其在视觉和定量结果上的有效性,表现优于现有 - 用于加速 StyleGAN 嵌入的协作学习
该论文提出了一种基于协作学习的框架,包括一个高效的嵌入网络和一个基于优化器的迭代器,以有效地获得高质量的潜在代码,从而实现高效的图像编辑应用。
- 深度图像操作的自动编码器交换
本文介绍了 Swapping Autoencoder 用于图像操作的深度模型,该模型被设计用于控制图像的结构和纹理的交换,以实现纹理交换、局部和全局编辑以及潜在编码矢量算术等多种方式的真实输入图像操作,但与其他生成模型相比更有效,更高效。
- FineGAN:细粒度对象生成和发现的无监督分层解缠模型
本论文提出了一种名为 FineGAN 的新型无监督生成对抗网络框架,旨在实现对细粒度物体类别进行分层次生成。FineGAN 采用信息理论将三种因素(背景、目标形状、目标外貌)与潜在代码相关联,并以特定方式进行编码,从而实现所需层次关系,并通 - NIPS理解 $β$-VAE 中的解缠
本文以率失真理论为角度,探讨优化 $eta$-VAE 的修正 ELBO 下界时,在训练过程中的潜在编码信息容量逐渐增加的情况下,哪些情况下会出现与数据生成因素相对应的编码表示,我们基于这些洞见提出了一种修改 $eta$-VAE 训练机制