CBinfer：利用帧间局部性加速卷积神经网络对视频流的推断

Aug, 2018

CBinfer：利用帧间局部性加速卷积神经网络对视频流的推断

CBinfer: Exploiting Frame-to-Frame Locality for Faster Convolutional Network Inference on Video Streams

Lukas Cavigelli, Luca Benini

TL;DR采用新算法利用空间 - 时间稀疏性在计算机视觉中取得了高能效，即使在嵌入式设备上不需要重新训练网络，也可在语义分割应用中达到快速且准确的实时推断

Abstract

The last few years have brought advances in computer vision at an amazing pace, grounded on new findings in deep neural network construction and training as well as the availability of large labeled datasets. Applying these networks to images demands a high computational effort and pus

computer vision neural networks real-time inference spatio-temporal sparsity energy efficiency

发现论文，激发创造

CBinfer: 基于变化进行的卷积神经网络视频推断

本论文提出一种新的算法，利用像素变化的时空稀疏性，对静态摄像机录制的视频数据进行卷积神经网络的基于变化的评估，从而实现本地视频数据的处理，其速度比 cuDNN 基准测试平均快 8.6 倍，精度损失不到 0.1％，不需要对网络进行重新训练，而能源效率可达 328 GOp /s/ W。

Apr, 2017

DeltaCNN: 视频稀疏帧差的端到端卷积神经网络推理

DeltaCNN 是一个在视频数据上加速 CNN 网络推断的框架，通过对非重要像素进行截断和跳过相似图像区域以减少计算冗余，使得在实际设置中能够显著地提高效率并在准确度上只有少量差异。

Mar, 2022

重新思考 Inception 架构在计算机视觉中的应用

本篇论文主要研究了如何利用适当分解卷积和激进的正则化等方法，使卷积神经网络计算效率最大化，并以 ILSVRC2012 分类挑战作为基准，报告了使用少于 2500 万参数的 5 亿乘加运算成本的网络，评估单帧评估的 top-1 误差 21.2％和 top-5 误差 5.6％的显著成果。

Dec, 2015

利用基于块运动的特征插值进行视频快速语义分割

本文提出了一种新的加速视频推理的方法 —— 使用基于块运动向量和特征传播技术实现的快速特征传播技术以及基于周围帧传播得到的特征的特征插值技术，能够在保持精度的前提下，将图像分割的速度从单帧基线的 30ms 提高到每秒 20 帧，实现了几乎 6 倍的改进。

Mar, 2018

基于卷积和 Transformer 的视频帧插帧网络

本文提出一种创新的方法，将 Transformer 编码器和卷积特征相结合，从而减少了近 50% 的内存负担，在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍，并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估，展示了所提出方法的鲁棒性，与最先进的插值网络相比，取得了竞争性能。

Jul, 2023

时空网络与运动补偿的实时视频超分辨率

本论文提出一种新的视频超分辨率算法，即同时处理多个连续视频帧的 spatio-temporal sub-pixel convolution networks，并采用了创新性的运动补偿和视频超分辨率算法，相比于单帧模型，网络可以减少 30％的计算成本同时保持相同的质量，或者在相似的计算成本下提供 0.2dB 的增益。在公开数据集上的结果表明，该算法在精度和效率方面均超过当前的最新性能。

Nov, 2016

ECO: 在线视频理解的高效卷积神经网络

本文提出了一种基于长期信息的网络架构，能够同时加快视频处理速度和提高动作分类和视频字幕质量，其采样策略利用邻近帧的冗余性能够高效地处理每秒多达 230 个视频，具有与现有方法相当的性能且快速度可达现有方法的 10 到 80 倍。

Apr, 2018

使用 IntelCaffe 进行高效 8 位低精度卷积神经网络推断

本文介绍了 IntelCaffe 的高效推断技术以及用于深度学习模型优化的技术，它是第一个支持 8 位低精度推断的 Intel 优化深度学习框架，能够在 Intel Xeon Scalable 处理器上加速卷积神经网络的模型优化过程。该模型的 8 位优化模型可通过一次标定过程从 FP32 模型自动生成，无需进行微调或重新训练，其在 ResNet-50、Inception-v3 和 SSD 上的推断吞吐量和延迟分别提高了 1.38X-2.9X 和 1.35X-3X，精度损失可忽略不计，与 IntelCaffe FP32 基线相比，这些技术还使得吞吐量和延迟分别提高了 56X-75X 和 26X-37X。这些技术已在 IntelCaffe GitHub 进行了开源，并提供了 Amazon AWS Cloud 上重现结果的文物。

May, 2018

SBNet: 用于快速推断的稀疏块网络

本文介绍了一种新型的基于拼贴的稀疏卷积算法，通过利用计算掩码的稀疏结构，降低了 CNN 中高分辨率计算的复杂度，并应用于基于 LiDAR 的 3D 目标检测中，最终获得了显著的速度提升而无需牺牲准确率。

Jan, 2018

MoViNets：高效视频识别的移动视频网络

提出了 MoViNets，一种计算和内存高效的移动视频网络，用于在线推断，借助三步方法实现计算效率和存储空间大幅提升。

Mar, 2021