从对应提议中学习视频表示

CVPRMay, 2019

Learning Video Representations from Correspondence Proposals

Xingyu Liu, Joon-Young Lee, Hailin Jin

TL;DR本文提出了一种名为 $CPNet$ 的神经网络模型，通过聚合可能的对应关系来学习视频表示，从而有效地将外观、长程动作与 RGB 输入混合，实现了具有时态一致性的 2D 场的演变。经过广泛的消融实验验证，$CPNet$ 在 Kinetics 上表现出了比现有方法更强的性能，并在 Something-Something 和 Jester 上实现了最新的性能表现。此外，我们还对我们的模型行为进行了分析，并证明了它对提议错误的鲁棒性。

Abstract

correspondences between frames encode rich information about dynamic content in videos. However, it is challenging to effectively capture and learn those due to their irregular structure and complex dynamics. In this paper, we propose a novel →

correspondences neural network video representations temporal consistency state-of-the-art performance

发现论文，激发创造

使用相关网络的视频建模

该文提出了一种基于可学习相关算子的替代方法，用于在视频中识别动作，并成功地应用在行为识别的多个数据集上，表现比流行的二元网络更加出色并且速度更快。

Jun, 2019

通用对应网络

本文提出了一种深度学习框架，用于准确的视觉对应，并证明了其在几何和语义匹配中的有效性，提出了一种卷积空间变换器来模仿传统特征（如 SIFT）中的补丁归一化，广泛的 KITTI，PASCAL 和 CUB-2011 数据集的实验表明，与使用手工构建或学习特征的先前作品相比，我们的特征具有显着优势。

Jun, 2016

外观 - 运动对应关系视频序列异常检测

我们提出了一种深度卷积神经网络来检测监控视频中的异常事件，该网络通过学习一种物体外观和运动之间的关系来解决该问题。我们的模型是由重建网络和图像转换模型组成的，它们共享相同的编码器。该模型仅通过正常事件的视频进行训练，可对未知输入进行帧级别的评分。在 6 个基准数据集上的实验证明了该方法在与最先进方法的竞争性能方面的优越性。

Aug, 2019

利用对象级先验学习语义对应关系

研究使用二进制前景掩码并经过合成几何变形的图像来训练卷积神经网络（CNN），以解决语义对应问题，提出了一种新的 CNN 体系结构（称为 SFNet），其实现了这一想法，并展示了在标准基准测试中明显优于现有技术的实验结果。

Nov, 2019

视频指称理解中的对话问题

研究视频指代表达理解中的两个问题，提出了一种新颖的双重对应网络方法来增强帧间和跨模态的密集关联，以提高视频和图像 REC 基准测试的表现，并进行了全面的剖析研究。

Jul, 2022

视频压缩的学习

本文提出了 PixelMotionCNN 的概念，并采用基于学习的框架进行视频压缩，该框架包括迭代分析 / 综合，二值化等组件，实验结果表明该方案与 H.264 编解码器具有相当的性能表现，为未来视频编码的进一步提高压缩效率和功能提供了可能的新方向。

Apr, 2018

利用运动对比感知进行自监督视频表征学习

本文提出了基于长程残差帧和运动对比知觉网络的视频表示学习方法，旨在通过自监督学习获得更多的运动特定信息，并通过对比学习提高模型的语义表达性能，实验结果表明该方法对于 UCF-101 和 HMDB-51 数据集具有较高的性能表现。

Apr, 2022

SCNet：学习语义对应性

本文提出了 SCNet，一种基于卷积神经网络的语义对应的几何合理模型，利用区域提议实现匹配原语，并明确将几何一致性纳入其损失函数中，该方法在多项基准测试中均表现优异。

May, 2017

视频人员再识别的紧凑外貌表示学习

本文介绍了使用多个卷积神经网络的视频人物重新识别的新方法，利用步态对连续帧进行筛选选取代表帧，利用特征池化提取特征进行身份鉴定的紧凑描述，实验证明该方法比现有方法更优。

Feb, 2017

视频帧插值的 PhaseNet

本文介绍了一种新的视频帧插值方法 ——PhaseNet。相较于传统方法和基于深度学习方法，PhaseNet 可以更好地处理光照变化和运动模糊等挑战性场景，并且也适用于更大范围的运动，通过直接估计中间帧的相位分解，避免了使用手工设计启发式方法的缺点。

Apr, 2018