视频流的抽取-转换-加载

Oct, 2023

Extract-Transform-Load for Video Streams

Ferdinand Kossmann, Ziniu Wu, Eugenie Lai, Nesime Tatbul, Lei Cao...

TL;DR视频分析与处理的数据仓库问题：通过自定义的视频提取-转换-加载（V-ETL）系统，降低大规模视频处理的成本，并保持高吞吐率。

Abstract

Social media, self-driving cars, and traffic cameras produce video streams at large scales and cheap cost. However, storing and querying video at such scales is prohibitively expensive. We propose to treat large-scale video analytics as a →

发现论文，激发创造

NoScope: 在规模化视频流中优化神经网络查询

NoScope是一种用于查询视频且可通过优化模型搜索降低神经网络视频分析成本的系统。使用该系统，实现了在维持良好准确度的前提下，运行速度的数倍提升。

Mar, 2017

使用低延迟和低成本查询大型视频数据集

本研究提出了一种名为Focus的系统，它在交通控制和监视领域中的大型视频数据集上实现了低延迟和低成本的查询，该系统使用了便宜的摄入技术将视频按其中出现的物体进行索引，并解决了在较便宜的CNN的支持下进行查询时的精度问题，同时还采用了聚类以减少查询时间延迟。

Jan, 2018

将视频分析系统扩展至大型摄像机部署

本文介绍了如何通过利用视频流之间的空间和时间内容相关性，解决大规模视频摄像头部署中计算成本与推断准确性等问题，进行视频分析扩展的路线图。

Sep, 2018

在受限边缘节点上扩展视频分析

FilterForward is an edge-to-cloud system that uses lightweight edge filters and microclassifiers to reduce bandwidth use by an order of magnitude while improving computational efficiency and event detection accuracy for video camera data processing.

May, 2019

学习压缩（LtC）：高效基于学习的流媒体视频分析

介绍了一种名为LtC的协作框架，通过在分析服务器上使用高级分析算法作为教师来训练轻量级的学生神经网络，从而在视频源端有效地减少视频流的大小，并使用基于特征差异的新颖时序过滤算法省略不包含新信息的帧，从而实现了28-35%的带宽减少和达到相似分析性能的45%短响应延迟。

Jul, 2023

Spatialyze：一种具备空间感知优化的地理空间视频分析系统

Spatialyze是一个用于端到端查询地理空间视频的新框架，它提供了一种领域特定语言，用户可以使用三步、声明式、构建-过滤-观察的范式来构建地理空间视频分析工作流。实验结果表明，Spatialyze可以将执行时间缩短多达5.3倍，同时与未经优化的执行相比，准确度可达97.1%。

Aug, 2023

BiSwift: 边缘上多路流视频分析的带宽协调器

高清（HD）摄像机用于监控和道路交通方面的需求不断增长，需要大量计算资源进行实时分析。该研究提出了BiSwift，一个双层框架，通过集成新型自适应混合编解码器和多级流水线以及全局带宽控制器来扩展并发实时视频分析。BiSwift能够仅依靠一台搭载NVIDIA RTX 3070（8G）GPU的边缘设备，在9个流上实时进行目标检测。与最先进的视频分析流程相比，BiSwift提高了10% ~ 21%的准确性，并呈现出1.2 ~ 9倍的吞吐能力。

Dec, 2023

Arena: 对边缘辅助视频分析的感兴趣区域可见光成像推断加速系统

通过引入 Arena，基于 Vision Transformer（ViT）的端到端边缘辅助视频推理加速系统，利用 ViT 的能力通过令牌修剪加速，仅将感兴趣区域（PoIs）卸载并传递给下游模型，还使用基于概率的补丁抽样确定连续帧中对象的可能位置，通过在公共数据集上广泛评估，结果表明 Arena 可以提高推理速度达到平均 1.58 倍和 1.82 倍，同时只消耗带宽的 54% 和 34%，而推理准确性也很高。

Apr, 2024

回顾：具备特征存储的视频到视频翻译技术

StreamV2V是一种实时的流媒体视频转视频（V2V）翻译方法，通过用户提示实现。它通过维护一个特征库，将过去的信息与当前帧进行融合，在处理无限帧数时，以流媒体方式而非批处理方式进行帧处理。StreamV2V具有自适应性和高效性的特点，在不需要微调的情况下，与图像扩散模型无缝集成，并能在一个A100 GPU上以20 FPS的速度运行，比FlowVid、CoDeF、Rerender和TokenFlow分别快15倍、46倍、108倍和158倍。定量指标和用户研究结果证实了StreamV2V保持时间一致性的卓越能力。

May, 2024

同边缘：一种用于Segment Anything模型的边缘-云视频分析架构

该研究针对边缘视频分析应用中的实时响应问题提出了SAMEdge架构，旨在支持用户通过输入提示进行视频分析。SAMEdge通过引入视觉提示转换算法和图像编码高效工作负载划分，解决了与提示编码和图像编码相关的资源挑战。研究结果表明，SAMEdge在不同网络带宽下显著提高了视频分析的准确性。

Sep, 2024