- CVPRDeltaCNN: 视频稀疏帧差的端到端卷积神经网络推理
DeltaCNN 是一个在视频数据上加速 CNN 网络推断的框架,通过对非重要像素进行截断和跳过相似图像区域以减少计算冗余,使得在实际设置中能够显著地提高效率并在准确度上只有少量差异。
- 利用迁移学习的低延迟实时癫痫检测
本文提出了一种将多通道信号转换为灰度图像并利用迁移学习进行高性能癫痫检测的端到端系统,其具有简单的前后处理操作,计算轻便,低延迟,可用于实时临床应用,性能达到了 42.05% 的灵敏度,每 24 小时 5.78 个假警报,运行速度快于实时( - Argus++:利用重叠立方体建议的无约束视频流强健实时活动检测
Argus++ 是一个用于分析不受限的视频流的鲁棒实时活动检测系统,通过引入重叠的时空立方体作为活动提案的中间概念,实现了活动检测的全覆盖和完整性,并优化了整个系统以在消费级硬件上进行实时处理。在不同的监控和驾驶场景中进行的广泛实验证明了它 - VISOLO:基于网格的时空聚合,实现高效的在线视频实例分割
本文提出了一种基于网格结构特征表示的新型单阶段框架,并引入协作操作模块来聚合可用帧的信息以丰富所有 VIS 子任务的特征,从而在所有 VIS 任务中高效地充分利用先前信息,实现了实时处理,并在 YouTube-VIS 2019 和 21 数 - 用于实时无人机跟踪的连体变压器金字塔网络
这篇论文介绍了 Siamese Transformer Pyramid Network(SiamTPN)方法,该方法结合了 CNN 和 Transformer 的优势,并针对移动平台的计算资源有限的情况,构建了一个稳健的、针对目标的外观模型 - CFLOW-AD:基于条件归一化流的实时无监督异常检测及定位
本文提出了一种基于 CFLOW-AD 模型的实时无监督异常检测方法,在定位方面有着明显的优势,与之前最先进的方法相比,它具有更高的计算效率和更小的模型大小。
- 使用帧间通信变换器进行视频实例分割
本研究提出一种使用 Transformers 实现的视频实例语义分割的端到端解决方案,通过利用内存令牌的紧凑表示和交换信息的方式,提供实时视频处理可行的高精度解决方案。
- CVPR侧重于本地:通过关键点自下而上检测车道标记
FOLOLane 是一种基于本地模式建模实现自底向上预测全局结构的新型车道标线检测解决方案,通过两个分别预测车道关键点存在及位置的卷积神经网络模型来进行低复杂度本地模式建模,在同时实现实时处理的基础上,充分利用了有限的特征视野和局部车道标线 - GSVNet: 基于引导变空间卷积的快速视频语义分割
该论文提出了一种简单而有效的传播框架,包括轻量级流估计和引导式空间变化卷积方法,实现了视频分割的最优准确度和吞吐量的平衡。
- ECCVDMD:一个用于驾驶员注意力和警觉分析的大规模多模态监测数据集
本文介绍了司机监控数据集 (Driver Monitoring Dataset) 和 dBehaviourMD 数据集,并使用其训练一个高效、实时、CPU 平台可运行的司机行为识别系统,该系统对于实时反应和精度都有着较好的表现。
- 数据流聚类:一篇综述
该文综述了数据流聚类算法的基本概念和特点,对不同算法进行了对比分析,讨论了数据流聚类存在的问题和挑战。
- RoadNet-RT: 实时道路分割的高通量 CNN 架构和 SoC 设计
本文提出了一种基于 CNN 网络的轻量级、高吞吐量的 RoadNet-RT 架构,通过深入优化硬件设计和使用分离深度卷积和非均匀核大小卷积等技术,显著提高了道路分割的实时处理速度。相较于现有最先进的网络,在仅仅 6.2% 的精度损失下,Ro - MM现代分布式计算系统中基于人工智能的资源管理
本文探讨了数据驱动资源管理系统在分布式计算系统中的应用及其挑战所在,并提供了一个概念性的数据驱动 RMS 模型,并以 GPU 频率调节和互联网数据中心资源管理两个实时案例证明该方法是可行的。
- CVPRTTNet:乒乓球实时时空视频分析
我们提出了一个神经网络 TTNet,旨在实时处理高分辨率的乒乓球视频,提供时间(事件检测)和空间(球检测和语义分割)数据,从而为自动裁判系统提供核心信息,同时我们发布了一个多任务数据集 OpenTTGames 以评估多任务方法,主要针对快速 - 利用汽车雷达进行深度开放空间分割
本研究提出使用深度分割模型和雷达识别停车场中的空余位置。并通过对 SCORP 数据集的评估,证明该方法在雷达输入表示方面表现良好,具有低内存使用和实时处理速度,适合嵌入式部署。
- 多模态多通道目标语音分离
通过利用目标说话者的空间位置、声音特征和唇部运动,本研究提出了一种通用的多模态框架来实现目标语音分离,并探讨了多模态联合建模的融合方法。通过实验验证,该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法,同时可支持实时处理。
- 城市街景的实时高性能语义图像分割
本文提出了一种用于城市街景的语义分割的高性能深卷积神经网络方法,它实现了精度和速度之间的良好权衡,并展示了在实时速度下使用单个 NVIDIA TITAN X 卡片在具有挑战性的 Cityscapes 和 CamVid 测试数据集上分别实现了 - FootAndBall: 综合球员和球探测器
本文介绍了一种名为 FootAndBall 的基于深度神经网络的检测器,它可以有效地检测高清、远距离的足球比赛视频中的足球和球员,并且可以以任意分辨率处理输入视频流,由于其专业设计,比通用深度神经网络物体检测器(如 SSD 或 YOLO)少 - 自主导航的代理优先级
提出一种实时排名系统,通过仿真运行规划器并记录各种规划器活动的结果自动生成一个代理编排数据集,并结合卷积神经网络和领域知识工程特征,用于实现在自主导航中智能代理编排。
- 使用即插即用点云去噪算法从单光子激光雷达数据实时重建 3D 模型
文章提出了一种新的实时三维场景重建的计算框架,通过将统计模型和计算机图形学中高度可扩展的计算工具相结合,能够以 20 毫秒的处理时间重建具有未知数量曲面的像素,通过应对杂乱场景的目标探测和成像,能够实现对于复杂运动场景的鲁棒快速目标重建,为