大规模并行视频网络

Jun, 2018

Massively Parallel Video Networks

Joao Carreira, Viorica Patraucean, Laurent Mazare, Andrew Zisserman, Simon Osindero

TL;DR本文介绍了一类因果视频理解模型，旨在通过最大化吞吐量、最小化延迟和减少时钟周期的数量来提高视频处理的效率，利用操作流水线和多速率时钟的优势，每个时间步对每个帧执行最少量的计算 (例如仅四个卷积层)，以产生输出，通过将这些操作以流水线的方式进行深度并行计算，应用于现有图像架构并分析在两个视频任务上的行为：动作识别和人体关键点定位。结果表明，在几乎不损失性能的情况下，可以实现显著的并行性和速度提升。

Abstract

We introduce a class of causal video understanding models that aims to improve efficiency of video processing by maximising throughput, mi

causal video understanding models efficiency video processing operation pipelining multi-rate clocks

发现论文，激发创造

ECO: 在线视频理解的高效卷积神经网络

本文提出了一种基于长期信息的网络架构，能够同时加快视频处理速度和提高动作分类和视频字幕质量，其采样策略利用邻近帧的冗余性能够高效地处理每秒多达 230 个视频，具有与现有方法相当的性能且快速度可达现有方法的 10 到 80 倍。

Apr, 2018

AssembleNet: 在视频网络中搜索多流神经连接

本文提出一种名为 AssembleNet 的方法，通过进化算法自动发现连接更好、时空交互更强的神经网络结构，以达到更好的视频理解效果。该方法在公共视频数据集上优于以往的方法，尤其是在 Charades 数据集上，58.6% 的 mAP 表现尤为出色。

May, 2019

动作检测的预测 - 校正网络

本研究提出了一种基于线性动态系统和非线性映射理论的预测 - 纠正神经网络模型，能够自适应地关注‘惊奇’的视频帧，优化学习效率。研究表明，该模型在三个挑战数据集上的表现与双流网络相当，而无需计算昂贵的光流技术。

Apr, 2017

大小网络与深度时间聚合学习高效视频表示

本文介绍了一种基于低分辨率帧和高分辨率帧的轻量级、节省内存的行动识别架构，通过 FLOPs 降低 3~4 倍，内存使用降低 2 倍，利用提出的时间聚合模块来模拟视频中的时间依赖性。该模型在多项行动识别基准测试中表现良好。

Dec, 2019

时钟卷积神经网络用于视频语义分割

提出了一种新颖的叫做 “clockwork convnets” 的卷积神经网络框架，它能够通过对视频中语义内容的稳定性进行处理，以更高效和精确地进行实时视频识别和自适应视频处理。

Aug, 2016

动作识别的深度卷积特征多核学习

采用多核支持向量机和多流深度卷积神经网络相结合的方法，在多个方面如摄像机视角、视频质量等具有挑战性的 HMDB-51 数据集上，实现了接近最先进技术的 51 种活动识别问题的性能，同时也表现出人类级别的视觉理解能力，并且结合了改进的稠密轨迹和多跳特征叠加等人工手工制造特征补充了性能。

Jul, 2017

ContextVP：完全上下文感知视频预测

通过使用并行多维 LSTM 单元和融合单元进行数据聚合处理，提出了一种全面考虑过去背景信息的上下文感知结构，从而提高了视频预测的性能。该模型没有使用深度卷积网络、多尺度结构、分离前景和背景建模、运动流学习或对抗性训练等技术，性能超过了强基线模型并在多个领域展示了最新成果。

Oct, 2017

重新审视现成的时间模型在大规模视频分类中的有效性

这篇论文介绍我们在 ActivityNet Kinetics 挑战赛中获得第一名的视频识别任务的解决方案。我们使用 DevNet 框架进行特征提取，然后使用四种不同的时间建模方法，在 Kinetics 数据集上取得了显著的表现提升。

Aug, 2017

可扩展的视频编码，为人类和机器而设计

本文提出了一种可扩展的视频编码框架，该框架通过基础层比特流支持机器视觉（特别是物体检测）和增强层比特流支持人类视觉，并且结果表明，该框架在物体检测方面比最先进的视频编解码器节省 13-19％的比特率，同时在人类视觉任务的 MS-SSIM 方面保持有竞争力。

Aug, 2022

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015