MVFNet: 高效视频识别的多视角融合网络

AAAIDec, 2020

MVFNet: 高效视频识别的多视角融合网络

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan...

TL;DR本文提出了一种基于 2D CNN 骨干网络的新的多视图融合（MVF）模块，用于视频动作识别中的时空建模，并利用可分离卷积实现了高效处理，实验结果表明，该方法在不降低识别精度的情况下降低了模型复杂度。

Abstract

Conventionally, spatiotemporal modeling network and its complexity are the two most concentrated research topics in video action recognition. Existing state-of-the-art methods have achieved excellent accuracy reg

video action recognition spatiotemporal modeling efficiency multi-view fusion 2d cnn backbones

发现论文，激发创造

基于卷积双流网络融合的视频动作识别

为了最好地利用时空信息，我们研究了在空间和时间上融合 ConvNet 塔的多种方法，并发现在卷积层融合空间和时间网络而不是在 softmax 层融合可以大大减少参数。我们提出了一种新的 ConvNet 架构，以融合视频片段的空时信息，并在标准基准测试中评估了其性能，该架构达到了最先进的结果。

Apr, 2016

运动特征网络：固定动作滤波器用于动作识别

本文介绍了一种使用运动块的 MFNet 网络，可以捕捉序列帧之间的时空信息，提高动作识别的性能，且可将其附加到现有的 CNN 框架中。通过在 Jester 和 Something-Something 两个数据集上训练，得到了有竞争力的表现。

Jul, 2018

MVF-Net: 多视角 3D 人脸可塑模型回归

本文提出一种基于卷积神经网络和多视图图像的 3D 人脸重建方法，使用自监督的视角对齐损失来减少视图之间对齐误差，并使用光流法预测 3D 形状，实现更好的 3D 重建结果。

Apr, 2019

DeepVideoMVS：基于重复时空融合的多视点视频立体匹配

该论文提出了一种在线多视角深度预测方法，使用 ConvLSTM cell 实现对过去一定量信息的压缩，并考虑了时间步之间的视点变化，通过对先前的深度预测进行位移实现细胞的隐藏态的传播。该方法在实时性能的基础上带来了显著的深度预测的提高，并在数百个室内场景中表现出了优异的状态，代码详见 https://thisURL。

Dec, 2020

多视角变换器用于视频识别

本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型，通过实现不同空间和时间的分辨率，利用多个 encoder 对视频进行建模，从而在六个标准数据集上取得了最优秀的结果。

Jan, 2022

MVFuseNet: 通过多视角融合 LiDAR 数据，提高端到端对象检测和运动预测的性能

提出了一种名为 MVFuseNet 的方法，在利用脉冲激光雷达（LiDAR）数据时，通过多视图联合学习以及多尺度特征提取的方式，实现了目标检测和运动预测，取得了最新的技术成果，并且验证了该方法在大范围的自动驾驶数据集上可以很好地拓展并保持实时性能。

Apr, 2021

视频 FocalNets：时空 Focal 调制用于视频动作识别

本文提出了基于方向聚焦的架构 Video-FocalNet，它是一种有效且高效的视频识别体系结构，用于同时对本地和全局上下文进行建模，相较于现今热门的视频识别模型，该识别模型在三大数据集上表现优异，具有更低的计算成本。

Jul, 2023

MVDepthNet: 实时多视角深度估计神经网络

本文提出 MVDepthNet，在多视图深度估计中编码多视图观察信息，并结合参考图像使用编码器 - 解码器网络生成深度图，并在单目密集映射系统中应用，实现了高效准确的深度图生成。

Jul, 2018

视频分类的混合深度学习框架中建模时空线索

本文提出了一种混合式深度学习框架，旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模，并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验，结果表明该框架相对于传统策略具有更高的性能.

Apr, 2015

用于视频动作识别的双流卷积神经网络

本文提出了一种基于深度卷积神经网络的两通道 ConvNet 架构，结合了空间和时间网络，利用稀疏光流信息进行训练并使用多任务学习提高模型性能，成功地提高了视频动作识别的准确率。

Jun, 2014