自然数据中的时态稀疏编码非线性解缠

ICLRJul, 2020

自然数据中的时态稀疏编码非线性解缠

Towards Nonlinear Disentanglement in Natural Data with Temporal Sparse Coding

David Klindt, Lukas Schott, Yash Sharma, Ivan Ustyuzhaninov, Wieland Brendel...

TL;DR该论文介绍了一种基于 SlowVAE 的非监督学习模型，可以在自然视频中实现底层变化因素的非线性分离，并证明该模型在多个测试数据集上都超过了目前的最先进水平，并成功应用于其他具有自然动态的视频数据集。

Abstract

We construct an unsupervised learning model that achieves nonlinear disentanglement of underlying factors of variation in naturalistic videos

unsupervised learning disentanglement naturalistic videos slowvae benchmark datasets

发现论文，激发创造

通过稀疏因果干预分离潜在表示

通过将因果关系理论与矢量量化变分自编码器相结合，我们提出了一种新的基于因果动态的去纠缠方法，将量化向量视为因果变量并将其链接在因果图中，通过对因果图进行因果干预，引发影响图像中唯一变化因素的原子转换。同时，我们通过引入一个新的行动检索任务来测试我们的模型。我们在标准的合成和真实世界的去纠缠数据集上进行了测试，结果表明它能够有效地解缠图像变化因素并对图像的高级语义属性进行精确干预，而不影响其质量，即使在不均衡的数据分布下也是如此。

Feb, 2023

无监督学习序列数据的分离和可解释表示

本文提出一种分解的分层变分自动编码器，能够在无监督的情况下从序列数据中学习分离和可解释的表征。该模型基于多尺度信息的分层结构，实现了针对不同潜变量集合的序列依赖先验和序列无关先验。通过在两个语音语料库上的实验，表明该模型能够通过操纵不同的潜变量集合来转换说话人或语言内容，并在说话人验证和自动语音识别任务中优于基线模型。

Sep, 2017

基于解缠识别和非线性动力学模型的无监督学习

本文介绍了一种用于无人监督学习序列数据的框架 ——Kalman 变分自编码器，该框架在描述视频中的动态变化时不使用构成其帧的像素空间，而是用一个描述其物体非线性动态的隐藏空间。该模型在各种模拟的物理系统视频中进行端到端训练，在生成和缺失数据输入任务方面优于竞争方法。

Oct, 2017

S3VAE：自监督序列 VAE 进行特征解缕和数据生成

该论文提出了一种顺序变分自编码器，利用自监督方法，通过利用输入数据自身或外部模型提供的监督信号设计辅助任务，轻松将输入序列表示分解为静态因素和动态因素，并在视频和音频等领域的综合实验中证明其在表示分解和序列数据生成方面的有效性。

May, 2020

从单个序列元素中提取静态信息的顺序解缩

通过引入简单且有效的减法归纳偏差，条件于单个样本，我们提出了一种新颖且简单的架构，以减少信息泄漏，并展示了在生成和预测任务上相比多个强基准方法更先进的结果。

Jun, 2024

基于潜变量交换的弱监督学习解耦表示的 SW-VAE 模型

提出一种名为 SW-VAE 的新型弱监督训练方法，该方法利用数据集的生成因素将输入观测对作为监督信号进行训练，并且引入了逐渐增加学习难度的策略来平滑训练过程。通过多个数据集的实验证明，该模型在表示分离任务上显示出明显的优于最先进方法的改进。

Sep, 2022

自然聚类下的鲁棒表征学习和解排

我们提出 N-VAE，一种深度模型，能够检测和区分不同类别之间独有和共享的可变因素，并生成包含训练数据中看不到特征的人工样本。

Jan, 2019

对比分解时序变分自编码器

提出了一种称为对比去纠缠顺序变分自动编码器（C-DSVAE）的方法来进行自我监督的去纠缠表示学习，并使用对比估计的互信息以及简单且有效的数据增强技术来引入附加的归纳偏差。实验结果显示，C-DSVAE 在多个度量标准上显著优于现有的最先进方法。

Oct, 2021

离散变分自编码器在自然语言生成因素分离中的应用

本文提出一种基于变分自编码器（Variational Autoencoder）的新方法来实现对自然语言处理（NLP）系统的解释，并将文本语言特征建模为离散变量以实现学习解缠编码表示，实验结果显示该方法在多个基准测试和一个文本风格迁移后处理应用中表现优异且优于基于连续和离散变量的基准模型。

Sep, 2021

基于分层变分自编码器的视频时空解耦

本文提出了一种基于概率的方法，通过无监督视频数据学习可分离目标身份和姿态信息的表示。该方法利用具有因子化先验分布的深度生成模型来编码隐藏特征集中的时间不变性属性，并通过变化推理实现学习。实验结果表明，该模型成功分解其表示，并在转移学习任务中取得了改善的性能。

Dec, 2016