NoScope: 在规模化视频流中优化神经网络查询

Mar, 2017

NoScope: 在规模化视频流中优化神经网络查询

Optimizing Deep CNN-Based Queries over Video Streams at Scale

Daniel Kang, John Emmons, Firas Abuzaid, Peter Bailis, Matei Zaharia

TL;DRNoScope是一种用于查询视频且可通过优化模型搜索降低神经网络视频分析成本的系统。使用该系统，实现了在维持良好准确度的前提下，运行速度的数倍提升。

Abstract

Video is one of the fastest-growing sources of data and is rich with interesting semantic information. Furthermore, recent advances in computer vision, in the form of deep convolutional neural networks (CNNs), have made it possible to query this semantic information with near-human acc

发现论文，激发创造

多核上的深层张量卷积

通过扩展和优化快速Winograd级卷积算法，我们在CPU硬件上最大化CPU利用率及多核可伸缩性，处理了视频和体积图像分析中的空时特征，并证明了与之前的最先进技术相比，吞吐量提高了5到25倍。

Nov, 2016

使用低延迟和低成本查询大型视频数据集

本研究提出了一种名为Focus的系统，它在交通控制和监视领域中的大型视频数据集上实现了低延迟和低成本的查询，该系统使用了便宜的摄入技术将视频按其中出现的物体进行索引，并解决了在较便宜的CNN的支持下进行查询时的精度问题，同时还采用了聚类以减少查询时间延迟。

Jan, 2018

CBinfer：利用帧间局部性加速卷积神经网络对视频流的推断

采用新算法利用空间-时间稀疏性在计算机视觉中取得了高能效，即使在嵌入式设备上不需要重新训练网络，也可在语义分割应用中达到快速且准确的实时推断

Aug, 2018

标签传播与细化的高效视频语义分割

本文提出了一种高清视频实时语义分割的混合GPU / CPU方法，并给出了一种称之为EVS的管道，该管道结合了CPU和GPU两种不同的处理方式，以优化视频帧率和分割准确度。

Dec, 2019

用于高效本地注意力的学习查询

本文提出了一种名为query and attend（QnA）的新型shift-invariant local attention层，将其并入分层视觉transformer模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

CNN Filter DB: 训练卷积过滤器的实证研究

本文研究的是卷积神经网络的权重分布偏移对于预训练模型的稳健性的影响，提出了一个包含超过14亿卷积滤波器的数据集，并通过分析数据集展示了现有预训练模型的一些局限性。

Mar, 2022

针对深度视频理解的查询感知长视频定位和关系判别

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

Oct, 2023

大规模视觉语言模型学习用于高效和高性能的部分相关视频检索的超级图像

提出一种高效和高性能的部分相关视频检索方法，通过使用超级图像、视觉编码和细调方法，实现了在ActivityNet Captions和TVR上的最佳性能。

Dec, 2023

图像在第二层之后价值为1/2令牌：大型视觉语言模型的即插即用推理加速

通过学习自适应注意力模式和精简视觉标记，FastV可显著降低计算成本并在各种图像和视频理解任务中保持优秀性能，有助于在边缘设备和商业模型中部署大规模视觉-语言模型。

Mar, 2024

使用大型语言模型的流式长视频理解

这篇论文介绍了VideoStreaming，一种用于视频理解的先进视觉语言大型模型(VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024