从视频中无监督地学习解缠表示

May, 2017

Unsupervised Learning of Disentangled Representations from Video

Emily Denton, Vighnesh Birodkar

TL;DRDrNET 是一种用于学习从视频中生成分离图像表示的新型模型，通过利用视频的时间一致性和新型的对抗性损失函数来学习一种表示，该表示将每一帧分解为一个固定部分和一个随时间变化的成分，这种分离的表示可以用于一系列任务，例如将标准 LSTM 应用于随时间变化的成分，从而预测未来的帧。

Abstract

We present a new model drnet that learns disentangled image representations from video. Our approach leverages the →

发现论文，激发创造

本文使用对抗学习方法学习人脸图像的解缠表示，提高了在 AffectNet 数据集上表情识别任务的准确率。

Aug, 2020

本文提出了一种无监督的深度学习方法来分离在野外拍摄的脸部图像中的多个潜在变化因素，其中多个潜在变化因素的乘法交互通过多线性（张量）结构明确地建模。该方法学习了面部表情和姿态的分离表示，可用于各种应用，包括面部编辑，以及三维面部重建和面部表情、身份和姿态的分类。

Nov, 2017

我们提出了一种无监督的变分模型，用于将视频转换为独立因素，每个因素的未来可以从其过去预测，而无需考虑其他因素。我们展示了我们的方法常常学习到可解释为场景中对象的因素。

Jan, 2019

本论文提出了一个自监督学习的视频自编码器，能够从视频中学习出 3D 结构和相机姿态的解耦表示，通过重组这些表示来实现诸如新视角合成、相机姿态估计以及运动跟踪的任务。

Oct, 2021

本文提出了一种另类的方法，通过使用预训练的图像模型作为 “老师” 来训练视频模型，从而实现对视频表示的无监督学习。相比于现有的技术，该方法在 input modalities 的不同数据源下具有更强的迁移性能，并在彻底未被筛选的原始视频数据来源下进行训练。

Jan, 2019

本文提出了一种新型的人脸反欺诈方法，旨在通过解缠活体特征和内容特征从图像中提取最终进行分类的活体特征，并采用卷积神经网络和低层级和高层级监控的结合来提高其泛化能力，并在公共基准数据集上进行了充分的实验结果验证。

Aug, 2020

本论文提出了一种利用神经网络学习解开图像可控制性表示从而允许局部图像操作的方法，能够直接转移面部特定区域如眼睛、头发和嘴巴等部分的形状和颜色，而其他部位不变，通过使用定位的 ResNet 自编码器和几个损失函数进行训练，利用 CelebA 数据集检验了该方法的良好效果。

Aug, 2019

本文介绍了一种非监督框架来提取视频表征的语义丰富特征，并提出了一个深度卷积神经网络来分离运动、前景和背景信息。实验结果表明，该网络可以在视频中成功分割前景和背景，并基于分离的运动特征更新前景外观。此处提供的预训练方法可以优于随机初始化和自动编码器预训练，促进了区分性分类任务。

Jul, 2017

提出一种基于结构化概率模型和深度学习的自动编码器框架，能够将高维的视频序列自动地分解成易于预测的低维时序动态，并且无需显式监督，在多个数据集上进行实验表明该方法具有较好的预测能力。

Jun, 2018

该论文介绍了一种基于 SlowVAE 的非监督学习模型，可以在自然视频中实现底层变化因素的非线性分离，并证明该模型在多个测试数据集上都超过了目前的最先进水平，并成功应用于其他具有自然动态的视频数据集。

Jul, 2020