视频深度信息最大化表示学习

Jul, 2020

Representation Learning with Video Deep InfoMax

R Devon Hjelm, Philip Bachman

TL;DR本文介绍一种名为 Video Deep InfoMax (VDIM) 的自监督学习方法，将原 DeepInfoMax 扩展至视频领域，其利用内部结构构建视图，并利用这些视图进行预测任务，从而实现对 UCF-101 数据集的行为识别任务的 SoTA 预测结果。

Abstract

self-supervised learning has made unsupervised pretraining relevant again for difficult computer vision tasks. The most effective self-supervised methods involve →

self-supervised learning computer vision prediction tasks deepinfomax video domain

发现论文，激发创造

通过互信息估计和最大化学习深层表示

通过在深度神经网络编码器的输入和输出之间最大化互信息来进行无监督学习表示，该方法将表示的特征与先前分布进行敌对匹配，优于其他无监督学习方法并能够在多个分类任务中与全监督学习相竞争，深度信息最大化（DIM）为特定端点目标的无监督学习表示开启了新的途径。

Aug, 2018

深度强化学习和信息最大化学习

本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Jun, 2020

在材料信息学中建立深度信息最大化作为一种有效的自监督学习方法

在材料信息学中，材料属性标签的稀缺性是一个关键挑战，然而相对而言，没有属性标签的材料数据却非常丰富。通过在任何晶体结构信息文件（CIF）中仅利用 “内在信息” 进行无监督任务的预训练模型，有潜力利用大量没有属性标签的晶体数据来提高小数据集上的属性预测结果。我们运用 Deep InfoMax 作为材料信息学的自监督机器学习框架，明确最大化晶体的点集（或图形）表示和适用于下游学习的向量表示之间的互信息。这允许在大型材料数据集上无需属性标签进行监督模型的预训练，也不需要模型从表示向量中重构晶体。我们通过在 Site-Net 架构上实施 Deep InfoMax 预训练，研究了在具有少量数据（<10^3）的情况下改善下游属性预测模型性能的好处，该情况与实验测量的材料属性数据库相关。通过属性标签屏蔽方法，在较大的受监督数据集上进行自监督学习，然后在少量标签的子集上训练监督模型，我们将 Deep InfoMax 预训练与分布偏移的影响分离开来。我们在表示学习和迁移学习的上下文中展示了性能改善，在能带间隙和形成能量预测任务中。在控制环境中建立了 Deep InfoMax 预训练的有效性后，我们的发现为将该方法扩展到解决材料信息学中的实际挑战提供了基础。

Jun, 2024

自监督视频预训练产生强大的图像表示

提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Oct, 2022

利用 Deep InfoMax 预测阿尔茨海默病的进展

本文研究探讨了 Deep InfoMax 与卷积神经网络在阿尔茨海默病进展预测中的应用，结果表明 Deep InfoMax 在未来的神经影像研究中具有很高的潜在效用。

Apr, 2019

自监督学习视频诱导视觉不变性

通过使用 Video-Induced Visual Invariances (VIVI) 的自监督学习框架，本文提出了一种可以在 19 种视觉任务中实现超过最佳监督模型的自监督转移学习方法。

Dec, 2019

通过特征解耦和互信息最大化进行视频侵权检测

自媒体时代提供了大量高质量的视频，然而，频繁的视频版权侵权行为严重损害了视频创作者的利益和热情。本文从两个方面解决了该问题：（1）我们提出将原始高维特征分解为多个子特征，明确地将特征分解为互斥的低维分量，以期删除冗余信息；（2）在分解的子特征之上，我们进一步学习了一个辅助特征以增强子特征，通过理论分析标签与分解特征之间的互信息，得到了最大程度从原始特征中提取任务相关信息的损失函数。在两个大规模基准数据集（即 SVD 和 VCSL）上进行了大量实验，结果表明我们的方法在大规模 SVD 数据集上达到了 90.1％的 TOP-100 mAP 并且在 VCSL 基准数据集上创造了新的最先进性能。希望我们的代码和模型能贡献给社区。

Sep, 2023

通过视频旋转预测进行自监督空时特征学习

本文提出了 3DRotNet，一种全自我监管的方法，用于从未标记的视频中学习空间时间特征来提高视频理解任务的性能

Nov, 2018

信息最大化准则的自监督学习

本文介绍一种基于互信息的 self-supervised 方法 CorInfoMax，该方法通过最大化高斯混合分布下的互信息解决了 mode collapse 和 dimensional collapse 问题。

Sep, 2022

时域 DINO: 提升动作预测的自监督视频策略

研究论文介绍了一种新颖的自监督视频策略，通过 Temporal-DINO 方法在行动预测方面取得了显著改进，提高了背景骨干网络捕捉长期依赖性的能力。

Aug, 2023