- Direct3D:基于 3D 潜在扩散变换的可扩展图像到 3D 生成
从文本和图像生成高质量的 3D 模型一直是具有挑战性的,本文介绍了一种直接的 3D 生成模型 (Direct3D),它可以缩放到野外输入图像,而不需要多视图扩散模型或 SDS 优化。我们的方法包括两个主要组成部分:一个直接的 3D 变分自动 - 用于高效再识别的嵌入式压缩
这篇论文研究了针对现实世界中物体再识别(ReID)算法的嵌入式压缩技术,通过量化感知训练和三种不同的降维方法(迭代结构化剪枝、初始化时对嵌入进行切片以及使用低秩嵌入)进行了压缩性能评估,发现嵌入可以压缩高达 96 倍,且性能下降较小,这意味 - 降秩自编码器 —— 增强非线性流形上的插值
我们介绍了 Rank Reduction Autoencoder (RRAE),这是一个具有扩展的潜在空间的自编码器,通过约束具有小的预定主奇异值数量(即低秩)来实现。RRAE 的潜在空间足够大,可以实现准确的预测,并进行特征提取。
- LaT-PFN:一种用于上下文时间序列预测的联合嵌入预测架构
LaT-PFN 是一种具有强大嵌入空间的时间序列模型,可以实现零点预测,并通过利用 JEPA 框架和 PFN 框架进行上下文学习来改善结果。
- SwapTalk:基于音频驱动的一键定制潜空间内的说话人脸生成
通过结合人脸交换和嘴唇同步技术,本文提出了一种创新的统一框架 SwapTalk,在相同的潜在空间中同时完成人脸交换和嘴唇同步任务,并引入了专家鉴别器指导和身份一致性度量等技术提高视频质量、同步准确性和身份一致性。
- ICML基于双曲几何的潜在扩散模型用于图生成
通过建立基于双曲几何的可解释度度量的几何潜变空间,使用径向和角度几何特性约束的几何潜变过程,HypDiff 框架能有效地捕捉和保留图的拓扑信息,并在各种拓扑结构的图生成中表现出卓越的效果。
- SwipeGANSpace:通过高效的潜空间探索实现滑动比较图像生成
使用生成对抗网络 (GANs) 生成偏好图像具有挑战性,因为潜在空间的高维性质。本研究提出了一种新方法,利用简单的用户滑动交互来生成用户偏好图像。为了有效地利用仅滑动交互的潜在空间,我们对 StyleGAN 的潜在空间应用主成分分析,创建有 - 情绪增强的多模一次拍摄头像
我们对 MegaPortraits 模型进行了深入的检查和评估,重点关注其用于面部表情描述符的潜在空间,并发现了其表达强烈面部动作能力的几个局限。为解决这些限制,我们提出了针对训练流程和模型架构的重大改进,推出了我们的 EMOPortrai - 因果扩散自编码器:通过扩散概率模型实现反事实生成
提出了 CausalDiffAE,一种基于扩散的因果表示学习框架,能够根据指定的因果模型实现反事实生成,并通过编码器从高维数据中提取语义上有意义的因果变量,以及使用神经网络参数化潜在因果变量之间的因果机制。
- 用于无监督分布偏移检测的自组织聚类系统
本文提出了一种持续学习框架,用于监测和检测数据分布的变化,通过自组织聚类和潜空间的统计方面探索这个问题,方法可以应用于有监督和无监督的环境中,并且通过比较高斯信号构建数据分布变化的评估,具有快速和稳健的特点,通过与其他无监督技术的比较实验证 - Sketch2Human:具有解耦几何和外观控制的深度人体生成
这项工作提出了 Sketch2Human,这是第一个通过语义草图(用于几何控制)和参考图像(用于外观控制)引导的可控全身人体图像生成系统。
- 基于多智能体强化学习的分布式黑盒模型逆推攻击
基于生成对抗网络的模型逆向攻击旨在通过在潜在空间中搜索代码来从复杂深度学习模型中恢复私有训练数据。本文提出了一种新颖的分布式黑盒模型逆向攻击方法,通过构建概率潜在空间来搜索目标隐私数据,相比现有方案具有更好的攻击准确性和性能。
- 用于生成学习的潜在 Schr {ö} dinger 桥扩散模型
通过在潜空间中利用 Schr {"o} dinger bridge 扩散模型构建新的生成学习方法,本文对当前扩散模型进行了全面的理论分析,包括利用预训练的编码器 - 解码器架构和 Schr {"o} dinger bridge 框架开发了潜 - 全球反事实方向
本文研究了一种全局化的视觉反事实解释方法,通过发现扩散自动编码器的潜在空间可以编码给定分类器的推理过程,提出一种新的基于代理的方法,以完全黑盒方式推断出两种全局反事实方向(GCDs),并展示了与潜在综合梯度相结合的新的黑盒归因方法,同时加强 - CVPRMCPNet:一种通过多层概念原型解释的分类器
通过使用多层概念原型分类器(MCPNet)和基于概念分布的分类方法,本研究在黑盒分类器模型的解释方面取得了显著的进展,并提供了更全面的多层解释,同时保持分类准确性。
- 潜在的守卫:一种用于文本到图像生成的安全框架
通过在文本与图像生成模型的文本编码器上学习潜空间,Latent Guard 提出了一种用于改进文本与图像生成中安全性措施的框架,能够检测输入文本嵌入中存在的有害概念。
- 大规模语言模型的潜在距离指导对齐训练
使用无需标注的注解方法,Latent Distance Guided Alignment Training (LD-Align) 利用生成的潜在空间对大型语言模型进行对齐训练,通过潜在空间中样本对之间的距离来引导对齐训练。经过广泛实验和评估 - AWOL: 使用语言进行分析而无需综合
通过语言控制现有 3D 模型生成新的形状,使用潜在空间和参数空间的映射来学习,从而实现从语言生成未在训练中见过的物体的参数。通过测试,展示了在两种不同类型的参数化形状模型(四足动物和树)上的效果,并且为生成 3D 树木方法的首次使用语言驱动 - StructLDM:三维人体生成的结构化潜在扩散
本研究提出了一种新的 3D 人体生成模型 StructLDM,通过在高维潜空间中建模人体的语义结构和拓扑,从而实现可控的 3D 人体生成和编辑,包括姿势 / 视角 / 形状控制、合成生成、服装编辑和虚拟试穿等。
- 深度生成模型的潜在空间中的艺术协作互动演化
生成对抗网络(GANs)在生成高质量的图像方面取得了巨大成功,并因此成为生成艺术图像的主要方法之一。本研究首先使用 Creative Adversarial Networks(CANs)架构的 GAN 进行训练,然后采用演化方法在模型的潜在