- 手势和视觉智能传感器的增量在线学习算法比较
本文比较了四种最先进的算法在两个实际应用中的效果,其中之一是基于加速度计数据的手势识别,另一个是图像分类,结果证实了这些系统的可靠性和在微型存储器 MCUs 中部署的可行性。
- 为主动发言人检测提供的端到端音视频特征融合
本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架,利用两个 BiGRU 层来处理音视频输入的时间动态,并在 AVAAcitveSpeaker 数据集上的实验结果表明,该模型具有更好的鲁棒性和更好的推断时间。
- ECCV更快的 VoxelPose:通过正交投影实时进行三维人体姿态估计
本论文提出了 Faster VoxelPose 方法,通过在三个二维坐标平面上重投影特征体积并分别从其中估计 X、Y、Z 坐标,以解决多人三维姿态估计的计算负担过重问题。该方法可以在不需要昂贵的三维卷积神经网络的情况下,使 VoxelPos - 移动机器人覆盖路径规划的快速跨度蚁群算法(FaSACO)
本研究提出了 FaSACO,这是一种基于蚂蚁群算法的快速走过覆盖区域路径规划方法,可以利用启发式信息减少路径规划的时间复杂度,使优化路径更高效,并特别适用于实时和能量有限的应用。
- CVPRIFRNet:用于高效帧插值的中间特征精化网络
本文提出了一种基于编码器 - 解码器网络的视频帧插值方法 IFRNet,该方法通过提取输入数据的金字塔特征和应用中间流场实现帧合成,同时引入了任务导向的光流蒸馏损失和几何一致性正则项进行优化,实验表明该方法具有出色的性能和快速的推理速度。
- CVPRGazeOnce: 实时多人凝视估计
本研究提出一种新的单阶段端到端注视估计方法,可同时预测图像中多个面孔(>10)的注视方向,并使用 MPSGaze 数据集验证了该方法的有效性和易用性,为实时应用提供支持。
- 油轮码头的协调时间表优化:智能大空间时间数据驱动方法 —— 第二部分
本研究提出了一种新的协调调度优化方法,通过减少加权平均周转时间来提高港口效率,该方法是一种启发式算法,通过不同的观测窗口和滚动视窗法进行研究和优化实验。实验结果表明,该方法可以有效地减轻船舶周转时间,虽然实验结果基于历史数据集,但在二次计算 - 针对航空图片的 YOLOv4 目标检测分析与改进
本文介绍了一种基于 YOLOv4 的计算机视觉算法,可以快速准确地检测无人机航拍图像中的目标物体,可应用于实时监测等领域。
- CVPRE2EC:一种端到端基于轮廓的高质量高速实例分割方法
在本文中,我们提出了一种名为 E2EC 的新型轮廓匹配 - based 方法,采用一种可以学习的轮廓初始化架构来取代手工制作的轮廓初始化,以构建更明确的学习目标,提取更好的轮廓特征,同时利用多方位对齐的标签采样方案降低学习难度,提出动态匹配 - 高质量流媒体语音合成低,句子长度无关的延迟
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎 - ICLR基于块的自回归 GAN 用于条件波形合成
本研究提出了一种新的音频合成模型 Chunked Autoregressive GAN (CARGAN),它能够在保持较快的生成速度的同时减少漏洞,并且利用自回归的方法来学习瞬时频率和相位之间的关系,使其在有条件的生成音频方面有更好的表现, - 利用通道剪枝加速大规模实时 GNN 推理
本文提出通过修剪每层维度中对输出结果的影响程度很小的特征维度,使用 LASSO 回归公式设计修剪框架来加速 GNN 推理。针对计算和存储情景,设计了修剪方案。此外,还有效地存储和重复利用已访问节点的隐藏特征,显著降低了计算目标嵌入所需支持节 - PAN++:高效准确的任意形状文本端到端定位
本文提出了一个基于核心表示的端到端文本发现框架,可在自然场景中检测和识别任意形状的文本,并取得了竞争性的精度和高速度。
- 面向实时深度噪声抑制的高效模型
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
- MM边缘人工智能
本文探讨了物联网、边缘计算、5G 移动通信、人工智能 / 机器学习等技术在支持实时应用和满足复杂多样化的应用需求方面的潜力和挑战。
- 基于上下文聚合网络的实时语义分割
该论文提出了一种上下文聚合网络,通过较低的计算成本实现了准确的图像场景分割,适用于自主系统及实时应用。
- 终身目标检测
本研究提出了一种通过区域提议网络和区域分类网络的知识蒸馏来预防灾难性遗忘的方法,以持续或终身学习实时物体检测,实验结果表明该方法具有较高的 mAP 和 6 倍的推理速度提升。
- 利用 SRP-PHAT 和 3D 卷积神经网络实现的鲁棒声源跟踪
本文基于 SRP-PHAT 算法和三维卷积神经网络,提出了一种基于单声源的 DOA 估计和跟踪系统,具有较好的实时性和对高混响环境的鲁棒性。
- 基于空间信息引导的卷积神经网络实现实时 RGBD 语义分割
提出 Spatial information guided Convolution(简称 S-Conv)算法,将 RGB 特征与 3D 空间信息高效地集成,不会严重影响实时应用,可用于语义分割任务,实现出色的性能,并在 NYUDv2 和 S - CVPR实现超过 100 FPS 的多人 3D 姿态估计的跨视图跟踪
本论文提出了一种基于多个校准相机视角的、面向实时应用的多人三维姿态估计解决方案,利用视频中的时间一致性直接在三维空间中匹配二维输入与三维姿态,通过跨视图多人跟踪迭代地更新姿态,从而提高了准确性和效率,并介绍了新的大规模多人数据集。