- 高效的人体姿势估计:利用 MediaPipe 中的先进技术
该研究通过优化算法、提高准确性、计算效率和实时处理能力,在人体姿势估计方面取得了重要的进展;改进后的框架在动态运动和部分遮挡等复杂场景下显著提高了准确性,在增强现实、体育分析和医疗保健等方面具有广泛的应用,同时还探索了将这些改进应用于移动和 - MM人机交互场景中基于无标记多人跟踪的鲁棒滤波器
提出了一种筛选流程,通过对不完整的 3D 人体姿势进行优化,解决了人体姿势估计和深度相机带来的挑战,减少了机器人的抖动,实现了更一致、无噪音的动作表达,降低了意外的机器人运动,提供更流畅的互动。
- 跨数据集估计人体姿态:一种统一的骨架和多教师蒸馏方法
通过多教师知识蒸馏与统一的骨骼表示相结合,我们提出了一种新颖的方法来解决姿态估计中不一致的骨骼注释所带来的挑战,同时提升了模型在不同数据集上的适应性,实现了更准确的康复 7 个主要关键点和 21 个扩展关键点的预测。
- 注重低分辨率信息:多粒度信息无损模型用于低分辨率人体姿势估计
提出了一种 Multi-Granular Information-Lossless (MGIL) 模型,用于解决低分辨率图像中人体姿态估计的问题,通过使用 Fine-grained Lossless Information Extracti - 跨领域知识蒸馏在低分辨率人体姿势估计中的应用
通过知识蒸馏实现不同分辨率模型的性能提升,包括构建一个跨领域知识蒸馏框架,以及使用尺度自适应的投影仪集合模块来空间对齐输入分辨率不同的模型的特征图,进一步通过交叉类别对齐模块和从易到难的训练策略提高蒸馏性能。在 MPII 和 COCO 两个 - 自适应关键点屏蔽的半监督 2D 人体姿态估计
人体姿势估计是计算机视觉中的基本且具有挑战性的任务。本文提出了一种自适应关键点遮罩方法和双分支数据增广方案,用于改进半监督姿势估计的准确性和泛化能力,超过了现有的半监督姿势估计方法。
- LWIRPOSE:一种新型 LWIR 热图像数据集和基准
通过建立一个拥有 2,400 张高质量 LWIR(热力红外)图像的独特 RGB - 热力几乎配对和注释的 2D 动作数据集,该研究论文介绍了一个有助于遮挡和其他挑战情景中动作估计的数据集,并对数据集上的先进动作估计方法进行了基准测试,展示了 - CVPRSDPose:基于循环引导自蒸馏的分词姿态估计
SDPose 是一种新的自我蒸馏方法,它基于多周期前向传播设计了一个名为 MCT 的 transformer 模块来提高小型 transformer 模型的性能,同时通过将 MCT 模块的知识提取到一个简单的前向模型中,避免了额外的计算。
- 3D RF-Vision 中扩散模型是一个很好的姿态估计器
mmDiff 是一种针对嘈杂雷达数据的新型扩散式姿势估计器,解决了人体部分的漏检和环境干扰引起的信号不一致性等两个关键挑战,通过设计多个模块提供可靠的条件,显著优于现有方法,在公共数据集上实现了最先进的性能。
- NToP: 用于顶视鱼眼图像中的 2D 和 3D 人体姿态估计的基于 NeRF 的大规模数据集生成
利用神经辐射场技术从现有的 2D 和 3D 数据集生成特别适用于鱼眼透视的顶视图人体姿势数据集,并评估其在增强 2D 和顶视图 3D 人体姿势估计中的有效性。
- VLPose: 通过语言视觉调整弥合姿势估计中的域差
通过使用语言模型,我们提出了一种名为 VLPose 的新框架,通过语言和视觉之间的协同作用,增强传统姿势估计模型在自然和人工场景下的泛化和鲁棒性,实现了与最先进的调整策略相比,在 HumanArt 和 MSCOCO 数据集上分别提升了 2. - MM卧姿估计综述
对现有数据集和方法进行评审,旨在展示卧床人体姿势估计领域以往研究的局限性、当前挑战,并为未来工作提供指导性见解。
- 面向共享城区中人类与机器人互动姿势的大规模融合标签数据集
通过重用、融合和标注 MOT17 和 NCLT 这两个数据集,本文填补了缺失的捕捉共享城市区域内人机交互的丰富姿势标注数据集,并使用 YOLOv7 方法有效地估计人体姿势。
- 适应性深度学习用于超低功耗纳米飞行器高效视觉姿态估计
提出了一种新颖的自适应深度学习机制,用于有效执行基于视觉的人体姿势估计任务,以最大限度地利用纳米无人机上的极其有限资源,通过结合两种卷积神经网络、三种基于输出的时间一致性和辅助任务的新适应策略来实现。在真实世界数据集和实际纳米无人机硬件上, - 协作自监督视频表示学习用于动作识别
通过联合生成姿势预测和区分性上下文匹配的方式,我们设计了一种专用于动作识别的协同自监督视频表示学习框架(CSVR),其中包括三个支路:生成姿势预测支路、区分性上下文匹配支路和视频生成支路。这种方法在 UCF101 和 HMDB51 数据集上 - 遮挡人体姿态估计的全面框架
本文提出了一个综合框架 DAG (Data, Attention, Graph),用于解决因遮挡引起的性能降级问题。通过模拟遮挡场景,引入了掩蔽关节与实例粘贴数据增强技术;通过自适应判别注意力模块 (ADAM) 有效增强目标个体的特征;通过 - AAAISHaRPose:稀疏高分辨率人体姿态估计
提出了使用动态转换模型的稀疏高分辨率表示来进行人体姿势估计的框架 SHaRPose,并通过实验证明了其优越性能。
- 动态惯性姿势估计器 (DynaIP): 利用稀疏惯性传感器进行基于部分的运动动力学学习以提升人体姿势估计
该研究介绍了一种使用稀疏惯性传感器的新型人体姿势估计方法,该方法通过利用来自不同骨骼格式的多样的真实惯性运动捕捉数据,改进了以往依赖合成数据方法的缺点,包括两个创新组件:基于伪速度回归模型的惯性传感器动态运动捕捉和将身体和传感器数据分为三个 - 基于 NeRF 的可微电影化的电影行为转移
通过反向拍摄行为估计技术,优化相机轨迹,并借助可微分渲染器 NeRF 和细化的 SMPL 轨迹来解决现有 SLAM 方法在动态场景和人物姿态估计方面的局限性。结合 3D 引擎工作流的电影化转换管线,在用户研究中取得了更高的评级。
- HEViTPose:高效视觉变压器用于人体姿态估计
这篇研究论文提出了一种高效率视觉变压器(HEViTPose)用于人体姿势估计,通过特征分组、空间降级机制及多维度注意力头保持特征多样性。通过优化模型的 Patch Embedded Overlap Width,实现了性能、参数和 GFLOP