定制制作：通过自主学习的视频排序发现单调时间变化

Apr, 2024

定制制作：通过自主学习的视频排序发现单调时间变化

Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

Charig Yang, Weidi Xie, Andrew Zisserman

TL;DR我们的目标是发现和定位图像序列中的单调时间变化。为了实现这一目标，我们利用了一个简单的代理任务，即对乱序图像序列进行排序，通过 ` 时间 ' 作为监督信号，因为只有与时间单调变化的改变才能产生正确的排序。我们还引入了一种灵活的基于 Transformer 的模型，用于任意长度图像序列的通用排序，并具备内置的归因图。经过训练，该模型成功地发现和定位了单调变化，同时忽略了周期性和随机性的变化。我们展示了该模型在多种视频场景和对象类型中的应用，发现了未见序列中的对象级和环境变化。我们还证明了基于注意力的归因图作为有效的提示用于分割变化区域，并且学到的表示可以用于下游应用。最后，我们展示了该模型在对图像集进行排序的标准基准上达到了业界最高水平。

Abstract

Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time' serving as a superv

monotonic temporal changes image sequence transformer-based model attribution maps ordering images

发现论文，激发创造

时间至上：为视频 Transformer 提供时间自监督

本文提出了一种面向视频任务的基于 Transformer 的模型，通过自监督学习并增加对视频帧之间时间轴的考虑，有效地消除了空间偏差，提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。

Jul, 2022

洗牌学习：使用时间序列验证的无监督学习

该论文提出了一种从视频的原始时空信号中学习视觉表示的方法，通过无监督的顺序验证任务，即确定来自视频的帧序列是否按照正确的时间顺序排列，学习卷积神经网络 (CNN) 的强大视觉表示，其结果显示出该方法在捕捉人类姿势等在时间上变化的信息方面具有敏感性，并可用于姿势估计和行动识别。

Mar, 2016

无监督排序序列的表示学习

本文提出了一种利用视频进行无监督表示学习的方法，采用时序一致性作为监督信号，将表示学习形式化为序列排序任务，通过训练卷积神经网络对打乱的图像序列进行排序，以预测正确的顺序。实验结果表明，我们的方法在行动识别、图像分类和物体检测任务上比状态 - of-the-art 方法效果更好。

Aug, 2017

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

在自然环境中学习对齐序列操作

该研究提出了一种方法来解决深度学习在处理视频时不能考虑时间顺序信息，或忽略动作顺序差异所带来的问题，通过优先考虑时间一致性（同时允许动作关系顺序差异），解决自我学习顺序动作表示学习的问题，并在多个数据集上取得最优效果。

Nov, 2021

HyperCUT：使用无监督排序从单个模糊图像恢复视频序列

本文提出了一种有效的自监督排序方案，通过将每个视频序列映射到潜在高维空间的向量，使得每个视频序列和其反转序列提取的向量位于超平面的不同侧面，以避免由于顺序不明确而困扰图像对视频模型的训练。此外，我们提出了一个包含各种流行领域（包括面部、手和街道）的实际图像数据集，以验证我们方法的有效性。

Apr, 2023

不再取巧：实现时间自监督的潜力

我们提出了更具挑战性的帧级自我监督任务和有效的增强策略，通过增加 Transformer 模型来训练从对比学习中预训练的单帧视频表示，大幅提升了通过时间自我监督学习到的特征的质量，并且在高水平语义任务和低水平时序任务上表现出卓越的性能。

Dec, 2023

通过自监督学习学习 GAN 基于视频生成的时间相干性

本文提出了一种使用时间自我监督的算法，采用 GAN 生成视频的方式解决了时间关系难以探索的问题，同时提出了 Ping-Pong loss 用来改善长期时间一致性问题，并且介绍了一组评估模型的定量指标。

Nov, 2018

使用变分推理发现非单调自回归顺序

该研究提出了一种无监督、可并行学习的语言模型生成算法，使用置换矩阵表示自回归顺序，并通过多步生成式注意力将其作为目标顺序进行训练，并在语言建模任务中获得了有竞争力或者优秀的表现。

Oct, 2021

从叙述视频循环中学习时间动态

提出了一种基于自监督训练的计算机视觉方法，通过结合视觉和语言的时间循环一致性来学习模型预测未来和过去的动态变化，并可应用于不同任务，如动作预测和图像排序。

Jan, 2021