- ICCV基于不确定性引导的自适应弯曲算法实现鲁棒且高效的立体匹配
通过引入新的不确定性引导自适应相关性 (UGAC) 模块,本文提出一种动态计算相关性以实现鲁棒立体匹配的新视角。通过适应性调整采样区域和学习参数,UGAC 模块使得立体匹配能够更加鲁棒和高效地进行。实验证明,在 ETH3D、KITTI 和 - YOLOPose V2:基于 Transformer 的 6D 姿态估计的理解与改进
基于 Transformer 的 YOLOPose 模型通过关键点回归和改进的方式实现多目标 6D 姿态估计,适用于实时应用,并达到与最先进方法相媲美的效果。
- Wuerstchen:文本到图像模型的高效预训练
介绍了一种新颖的文本到图像合成技术 Wuerstchen,它在有限的硬件资源下实现了竞争性能和无前例的成本效益和易训练性。该方法利用最近机器学习的进展,在强潜在图像压缩率上采用潜在扩散策略,可显著降低计算负担,同时保留或提高所生成图像的质量 - 适用于实时逼真度提升的生成对抗渲染器
提出了一种高效的基于生成着色器的方法,该方法适用于资源受限的情况下,应用于实时的机器学习技术,不需要手动调整,可以在目标设备上进行高度有效的执行,并提供具有与许多基于神经网络的方法相竞争的质量的超越实时的结果。
- 基于层级自适应体素导向采样技术的大规模点云实时应用
本论文提出了一种基于逐层自适应体素引导的点采样器,能够以高效的方式处理大规模场景点云,实现实时应用,并通过实验验证了该方法的有效性和高效性。
- 通过蒸馏实现快速零标签场景流量
通过使用无需标签的方法来监督前馈模型,本文提出了一个简单的蒸馏框架,其实例 ZeroFlow 可以在大规模点云上实时进行场景流估计,而不需要人工标注。
- 曲率感知坐标网络的训练
本文提出了一种利用二阶优化方法显著减少坐标网络训练时间并维护其可压缩性的解决方案,并在各种信号模态(如音频、图像、视频、形状重构和神经辐射场)上证明了其有效性。
- CVPR高效 ViT: 带级联分组注意力的内存高效视觉 Transformer
本研究提出一种高速的视觉 Transformer 模型 EfficientViT,通过优化 Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法,提高其内存利用率,加快模型速度,并在速度和准确性之间取得 - 珍惜所拥有的:利用深度神经网络中的相似性进行高效视频处理
本文提出了一种基于相似度的训练方法,利用视频帧中的数据冗余来实现高效处理,适用于实时视频处理应用。通过引入分层的正则化,提高了计算复用并增加了训练期间权重的相似性,该方法在车道检测和场景分割等关键实时应用中获得了较高的压缩比和加速比,同时保 - 针对机器人超声引导手术的技能转移学习的简单框架
本文提出了一个用于机器人超声引导手术的技能转移学习的简单框架,该框架包括合适的取样技术、计算效率高的神经网络模型,实现了实时应用的技能转移学习。研究结果表明,经验丰富的临床医生比非临床医生在超声引导手术中具有更快和更顺畅的动作;为了实现实时 - 基于深度学习的 COVID-19 疫情期间佩戴口罩检测
本文探讨了使用三种最先进的目标检测神经网络在实时应用中用于口罩检测的能力,并在只有 1531 张图片的三个单独的类别的数据集上,通过使用 YOLOv4-tiny 模型获得了 85.31% 和 50.66 的平均精度和秒数,分别是其他最近研究 - 基于轨迹的实时社交群体检测
我们提出了一种用于社交群体检测的简单高效的图形转换模块和图形聚类损失,能够在人群拥挤动态的情况下实现较高的表现。与先前基于视觉内容的方法相比,在保持准确性的同时,实现了高速的推理时间。该方法适用于实时的机器人应用。
- DPPD:可变形极坐标多边形目标检测
该研究提出了一种新的 Deformable Polar Polygon Object Detection 方法,使用带有灵活顶点的稀疏多边形表示来实现精确形状对齐和低计算成本,通过稠密重新采样训练和预测多边形,实现高精度的物体形状学习,并成 - 具有延迟的强大多智能体取送货
本文研究带延迟的 Multi-Agent Pickup and Delivery 问题,提出了两种算法,基于 Token Passing 算法提供确定性和概率性的保证,在实验中,算法表现出了较好的有效性和健壮性,尤其是减少了重规划的次数。
- CVPR基于系统状态感知的适应性网络用于在线流媒体视频理解
本文提出了一种系统状态感知的自适应网络,对于在线视频理解任务,该网络可以根据实时设备状态提供高质量的预测并降低延迟,同时通过元自监督适应方法来适应新的硬件配置,实现模型在其他未见过的硬件平台上的部署。
- 热像实时手势识别
本文展示了一种使用热像数据的手势检测系统,使用基于背景减法的手掩模生成、k-means 算法手区域识别、手臂区域去除的手势分割以及基于卷积神经网络的手势分类来实现多个手区域的快速处理, 并引入了泡沫生长和泡沫搜索两种新算法, 进行更快的手势 - CVPR小波扩散模型:快速可扩展的图像生成器
通过提出一种基于小波的扩散方案以及使用重构项来提高模型训练收敛性,本文旨在缩小扩散模型与 GAN 模型之间速度差距,实验结果证明该方案是实现实时高保真扩散模型的基础。
- 手势和视觉智能传感器的增量在线学习算法比较
本文比较了四种最先进的算法在两个实际应用中的效果,其中之一是基于加速度计数据的手势识别,另一个是图像分类,结果证实了这些系统的可靠性和在微型存储器 MCUs 中部署的可行性。
- 为主动发言人检测提供的端到端音视频特征融合
本文提出了一种基于 VGG-M 和 Mel Cepstrum 系数的双流端到端框架,利用两个 BiGRU 层来处理音视频输入的时间动态,并在 AVAAcitveSpeaker 数据集上的实验结果表明,该模型具有更好的鲁棒性和更好的推断时间。
- ECCV更快的 VoxelPose:通过正交投影实时进行三维人体姿态估计
本论文提出了 Faster VoxelPose 方法,通过在三个二维坐标平面上重投影特征体积并分别从其中估计 X、Y、Z 坐标,以解决多人三维姿态估计的计算负担过重问题。该方法可以在不需要昂贵的三维卷积神经网络的情况下,使 VoxelPos