- 基于概念的大规模多模态模型可解释性框架
借助大型多模态模型(LMMs),本文提出了一种新颖的解释框架,通过字典学习的方法应用于令牌的表示,准确地解释了多模态概念,并定量和定性地评估了学习到的概念在视觉和文本方面的相关性与质量。
- 使用 VAE 集成比较表示空间的信息内容与解缠
用机器学习将数据集的信息划分为有意义的片段,通过研究多次训练运行中学习的通道作为信息片段的整合,并将表示子空间视为数据嵌入的概率分布进行相似度比较,最终实现 VAE 的集成学习以提升信息内容。
- AUEditNet: 面部动作单元强度操纵的双分支网络与隐式解缠
我们提出了 AUEditNet 模型,通过使用双分支架构,在仅有 18 个被试者的情况下实现了对 12 个面部动作单元(AU)的印象深刻的强度操纵。该方法在面部属性和身份方面实现了全面的解耦,无需额外的损失函数或大批量训练,为在数据集主体数 - 解开种族表征:对与种族相关的面部表征特征的精细控制
本研究论文提出一种新颖的生成对抗网络(GAN)框架,以实现对人脸图像中与种族相关表型属性的细粒度控制,并提供改进的逼真输出。
- AAAIPNeSM: 基于提示的神经风格映射的任意 3D 场景风格化
我们提出了一种新颖的 3D 场景风格化框架,可以将任意风格应用于任意场景,无需再训练。通过将 3D 场景的外观映射到 2D 风格模式空间并利用基于提示的 2D 风格化算法,我们实现了 3D 场景的几何和外观的完全分离,从而在视觉质量和泛化性 - CVPRMoST:多种动作内容之间的动作风格转换网络
基于新的模型架构和风格解耦损失,我们提出了一种有效解决在不同内容的运动之间进行风格传递的问题的运动风格转换器,它能够将风格与内容有效分离,并生成具有传入风格的逼真运动。我们的方法在各方面表现优于现有方法,在不同内容的运动对中表现出特别高的质 - CSCNET:用于组合式零样本学习的特定类别级联网络
这篇论文介绍了一个为组合式零样本学习(CZSL)解决属性和对象(A-O)解缠问题的新框架,名为类别指定级联网络(CSCNet),通过构建级联分支和参数分类器(ParamCls),来提高视觉和语义嵌入之间的匹配,从而取得了优于以往竞争方法的结 - 基准测试不确定性分离:专用任务的专用不确定性
通过对 ImageNet 上的多个任务进行综合评估,本文发现尽管有许多有前景的理论努力,实际上还没有实现解缠,同时揭示了哪些不确定性估计器在特定任务上表现出色,为从业者提供了见解,并指导未来研究朝向以任务为中心和解缠的不确定性估计方法。
- 混合条码:量化点云之间的几何 - 拓扑相互作用
我们通过结合标准持久化同调与图像持久化同调,定义了一种描述形状及其之间相互作用的新方法。特别地,我们引入了混合条码(Mixup Barcode),它能够捕捉任意维度中两个点集之间的几何 - 拓扑相互作用(混合效果);我们还提出了简单的总混合 - 多模态情感分析的三重解耦表示学习
通过三重解缠绑方法,TriDiRA,从输入数据中解释了模态不变、有效模态特定和无效模态特定的表示,并且通过融合仅模态不变和有效模态特定的表示,可以显著减少模态之间无关和冲突信息对模型训练的影响。在四个基准数据集上进行的大量实验证明了我们三重 - 目标中心学习中的明确解耦表示
从原始视觉数据中提取结构化表示是机器学习中一个重要且长期存在的挑战。最近,无监督学习目标为客观中心化表示的技术引起了越来越多的关注。本文提出了一种新颖的架构,通过在潜在空间维度的两个不重叠的子集中偏置客观中心化模型,以将形状和纹理成分分离开 - 非参数局部解缠机制稀疏化:稀疏动作、干预和稀疏时序依赖关系
提出了一种称为 “机制稀疏正则化” 的解缠方法,通过同时学习潜在因素和解释它们的稀疏因果图模型来诱导解缠,展示了该方法的可行性和其所依赖的假设,并提出了基于变分自动编码器和稀疏约束的估计过程,并在多个合成数据集上进行了验证。
- 神经点云扩散用于解耦的 3D 形状和外观生成
在电影、游戏、工程以及增强 / 虚拟现实等多种实际应用中,可控地生成 3D 资产具有重要意义。最近,扩散模型在生成 3D 对象的质量方面取得了显著的成果。然而,现有模型中没有一个能够实现对形状和外观的分离生成。我们首次提出了一种适用于 3D - 图像编辑的紧凑且语义潜空间的解缠和可控
我们提出了一种自编码器方法,通过重新组织 StyleGAN 的潜空间,使我们希望编辑的每个属性对应于新潜空间的一个轴,同时确保潜空间轴之间的相关性降到最低,以促进属性解缠,通过实验证明了我们的方法在编辑能力上超越了竞争方法,同时在保持图像身 - GenDeF: 学习生成变形场进行视频生成
通过使用生成变形场的方法,我们提出了一种全新的视频生成视角,可以有效地利用一张静态图像进行视频合成以提高视觉质量,并且实现对视频的内容和动作的解耦,使用户可以通过处理对应的静态图像来处理合成的视频,从而方便了许多应用如视频编辑、关键点跟踪和 - 语言驱动的视觉概念学习
通过从大型预训练的视觉语言模型中提取和训练一组概念编码器,我们的目标是学习一种以语言为导向的视觉概念表示,以重现输入图像,并通过遵循一组与视觉相关的概念轴从新的测试图像中提取概念嵌入,从而生成具有视觉概念新组合的图像。
- 当 StyleGAN 遇上稳定扩散:个性化图像生成的 W_+ 适配器
利用扩展的 StyleGAN 嵌入空间和文本到图像扩散模型进行高保真度的身份保护和语义编辑,成功地生成个性化文本到图像输出。
- 一张图片胜过千言万语:用于受限文本到图像合成的多属性逆转
本文研究了使用用户提供的参考图像约束扩散模型输出的问题,旨在从单个参考图像中提取多个属性,并使用这些属性生成新的样本。首先,文中分析了在去噪过程的时间步维度和 DDPM 模型层维度中捕获的属性,并发现某些属性在相同的模型层和时间步骤中被捕获 - 迈向一个统一的对比学习框架以实现解耦表征
通过对多种对比方法的理论分析,本论文扩展了有关数据表达的对比学习的理论保证,并验证了这些发现在多个基准数据集上的实际有效性。
- 面向对象的架构实现高效因果表示学习
利用因果表征学习和面向物体的学习相结合,通过修改 Slot Attention 架构,开发出了一种利用稀疏扰动进行弱监督的物体中心化架构,以更少的扰动成功解缠多个物体的属性。