AVT:自动编码变换的无监督变换等变表示学习
该研究介绍了确定性自编码变换和概率自编码变分变换模型,以从通用转换组中学习视觉表示,并通过最大化学习表示和转换之间的联合互信息来训练 AutoEncoding Variational Transformations 模型,该模型能更加一般性地捕获视觉结构的 复杂模式, 这将导致广义的 Transformation Equivariant Representations,可以应用到无监督和半监督的场景中。
Jun, 2019
本研究介绍了一种无监督学习的图变换等变表示(GraphTER)方法,可以有效地从 3D 点云数据中捕捉全局和局部变换下的图形结构,与现有的无监督方法相比表现更好,且可扩展用于其他数据集。
Nov, 2019
本文提出了一种新的无监督表示学习范式,通过自编码变换(AET)而非传统的自编码数据(AED)方法进行训练,使得神经网络可以在没有标注数据的情况下学习。实验结果表明,AET 范式可以实例化一大类变换,具有比现有的无监督方法更好的性能,特别是在 CIFAR-10、ImageNet 和 Places 数据集上表现更接近完全监督对照组的上限。
Jan, 2019
使用具有等变性函数的规范坐标系构建了一种不同 iable 的图像到图像映射,称为 ET(Equivariant Transformers),并证明了它能够在提高模型强健性方面进行灵活组合,从而使得在现实世界的图像分类任务中,相对于 ResNet 分类器,ET 能够在数据有限情况下提高最多 15% 的分类效果而只增加不到 1% 的模型参数。
Jan, 2019
本文研究使用自监督任务和少量数据进行训练的 Visual Transformer 网络的表现,并发现新的自监督任务可以在空间关系方面鼓励 VT 网络,从而显著提高其小数据集准确性。
Jun, 2021
本文提出了变分 Transformer(VT)算法,将变分自注意力前馈序列模型与 CVAE 的变分性质相结合,从而有效处理对话响应生成领域中高熵任务的问题,并在多个对话数据集上获得了性能提升。
Mar, 2020
提出了一种名为 AVT 的模型,它是一种基于注意力机制的端到端视频建模架构,通过关注之前观察过的视频来预测未来的动作,通过在训练时同时预测视频序列中的下一个动作。与现有的时序汇聚策略相比,AVT 在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,这对于预测任务非常关键。通过广泛的实验,该研究表明 AVT 在四个流行的动作预测基准测试中达到了最佳性能:EpicKitchens-55、EpicKitchens-100、EGTEA Gaze + 和 50-Salads;并在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。
Jun, 2021
提出了一种使用提取自动编码转换的 Lie 群 PG(2)对图像进行表示学习,并通过在旋转群 SO(3)中估计无法计算的黎曼对数的方法来度量变换之间的测地线距离的自监督学习方法(AETv2),在多个任务中表现优于其他最先进的自监督模型。
Nov, 2019
本文针对深度学习的无监督学习,将群不变和群等变表示学习扩展到了该领域。我们提出了一种基于编码器 - 解码器框架的通用学习策略,其中潜在表示被分为不变项和等变群作用项。在利用预测适当的群作用来对齐输入和输出姿势以解决重建任务时,网络可以学习将数据编码和解码为群不变表示。我们导出依变编码器的必要条件,并针对旋转,平移和置换明确描述了我们的构造。我们在不同网络架构下使用不同数据类型进行各种实验,测试了我们方法的有效性和鲁棒性。
Feb, 2022
介绍了 Adversarial Variational Bayes 技术,可以用于训练具有任意表达力的推理模型的变分自编码器,并将其与生成对抗网络建立起了原则上的联系。
Jan, 2017