使用预测生成网络进行视觉结构的无监督学习

ICLRNov, 2015

使用预测生成网络进行视觉结构的无监督学习

Unsupervised Learning of Visual Structure using Predictive Generative Networks

William Lotter, Gabriel Kreiman, David Cox

TL;DR本文探讨了基于预测未来帧的 CNN-LSTM-deCNN 框架的深度神经网络开发的内部模型，该模型学习了高层次对象特征的丰富内部表示。可以广泛泛化，是一种有效的无监督学习方法。

Abstract

The ability to predict future states of the environment is a central pillar of intelligence. At its core, effective prediction requires an internal model of the world and an understanding of the rules by which the world changes. Here, we explore the internal models developed by

predictive generative networks internal models deep neural networks visual sequence prediction unsupervised learning

发现论文，激发创造

深度预测编码网络用于视频预测和无监督学习

通过建立一个具有预测编码特点的预测神经网络 (PredNet)，本文探讨了将预测未来的视频帧作为无监督学习的规则来学习视觉世界结构的问题。在对计算机生成的物体的运动进行鲁棒的学习的同时，也能够缩短学习视野并从中获得内部表示。此外，这种网络架构也能够将检测到的流和视觉场景中的物体运动进行深度学习，为估算自我位置提供支持。综上所述，预测是无监督学习的强大框架之一，能够进行隐式的物体和场景结构学习。

May, 2016

从图像中进行的无监督三维结构学习

本文提出一种从 2D 图像中学习生成 3D 结构的深度生成模型，并通过概率推断从 3D 和 2D 图像中恢复这些结构，从而实现了第一个纯无监督学习下学习推断 3D 表示的方法，并在几个数据集上建立了基准模型。

Jul, 2016

学习处理不确定性的线性化方法

本文提出一种新的体系结构和损失函数，以训练生成模型以预测未标记的自然视频序列中的帧，解决了无监督设置下训练这种层次结构的问题，并通过引入非确定性函数的潜在变量来解决预测中固有的不确定性问题。

Jun, 2015

View Inter-Prediction GAN：学习全局形状记忆支持局部视图预测的无监督三维形状表示学习

该研究提出了一种基于 RNN 的神经网络架构的无监督 3D 形状表征学习方法，通过对多视角间预测任务的训练，实现了对多个形状的形状特定全局记忆的共享，从而取得了在三大规模 3D 形状基准测试中的优异表现。

Nov, 2018

通过预测噪音实现无监督学习

本文介绍了一种通用的框架，用于在没有监督的情况下对深度网络进行端对端训练，通过固定一组目标表示并约束其深度特征对齐到这些表示来达到目的，同时采用了随机批量重新分配策略和可分离的平方损失函数来缓解标准无监督学习中的一些问题，并且在 ImageNet 和 Pascal VOC 上能够实现与最先进的无监督方法相媲美的表现。

Apr, 2017

基于变换的大规模数据对抗性视频预测

本文通过对辩别器分解的系统实证研究，提出了一种结构，使得其收敛速度和性能都优于之前的方法，并分析了生成器中的循环单元，提出了一种新的循环单元，可以根据预测的动态特征转换其过去的隐藏状态，包括处理去除、场景改变等复杂行为，最终的模型在大规模的 Kinetics-600 数据集上，获得了卓越的性能。

Mar, 2020

图形生成对抗网络

提出了一种名为 Graphical Generative Adversarial Networks（Graphical-GAN）的模型，结合了贝叶斯网络和生成性对抗网络的能力来建模结构化数据。引入了一个结构化的识别模型来推断给定观测值的潜在变量的后验分布，并将期望传播（EP）算法广义化，以同时学习生成模型和识别模型。最后，提出了两个 Graphical-GAN 的重要实例，即高斯混合 GAN（GMGAN）和状态空间 GAN（SSGAN），可分别成功学习视觉数据集的离散和时间结构。

Apr, 2018

深度卷积生成对抗网络的无监督表示学习

该论文提出深度卷积生成对抗网络（DCGANs）可以用于无监督学习，通过在各种图像数据集上的训练，证明了 DCGANs 能够学习从物体部分到场景的表示层次结构，并且可以用于一般图像表示。

Nov, 2015

使用几何感知循环网络学习空间常识

这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想，将其嵌入移动视觉场景理解的递归网络架构中，以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中，通过不同 iable 几何操作进行预测和分割，十分成功。

Dec, 2018

面向结构模型视频预测的可解释潜空间

我们提出了一种物体为中心的模型，使用图神经网络中的对比学习在潜在空间中预测未来的状态，并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用，而且能够提高物体位置的定位能力，且实验表明我们的模型在多个领域中具有显著的优势。

Jul, 2021