NoScope: 在规模化视频流中优化神经网络查询
通过扩展和优化快速Winograd级卷积算法,我们在CPU硬件上最大化CPU利用率及多核可伸缩性,处理了视频和体积图像分析中的空时特征,并证明了与之前的最先进技术相比,吞吐量提高了5到25倍。
Nov, 2016
本研究提出了一种名为Focus的系统,它在交通控制和监视领域中的大型视频数据集上实现了低延迟和低成本的查询,该系统使用了便宜的摄入技术将视频按其中出现的物体进行索引,并解决了在较便宜的CNN的支持下进行查询时的精度问题,同时还采用了聚类以减少查询时间延迟。
Jan, 2018
采用新算法利用空间-时间稀疏性在计算机视觉中取得了高能效,即使在嵌入式设备上不需要重新训练网络,也可在语义分割应用中达到快速且准确的实时推断
Aug, 2018
本文提出了一种高清视频实时语义分割的混合GPU / CPU方法,并给出了一种称之为EVS的管道,该管道结合了CPU和GPU两种不同的处理方式,以优化视频帧率和分割准确度。
Dec, 2019
本文提出了一种名为query and attend(QnA)的新型shift-invariant local attention层,将其并入分层视觉transformer模型,并证明其在速度和内存复杂度方面的改善,同时又能实现与最先进的模型相当的准确度。
Dec, 2021
本文研究的是卷积神经网络的权重分布偏移对于预训练模型的稳健性的影响,提出了一个包含超过14亿卷积滤波器的数据集,并通过分析数据集展示了现有预训练模型的一些局限性。
Mar, 2022
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
Oct, 2023
提出一种高效和高性能的部分相关视频检索方法,通过使用超级图像、视觉编码和细调方法,实现了在ActivityNet Captions和TVR上的最佳性能。
Dec, 2023
通过学习自适应注意力模式和精简视觉标记,FastV可显著降低计算成本并在各种图像和视频理解任务中保持优秀性能,有助于在边缘设备和商业模型中部署大规模视觉-语言模型。
Mar, 2024
这篇论文介绍了VideoStreaming,一种用于视频理解的先进视觉语言大型模型(VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024