高效精确的手语识别:只需一个优秀的姿态估计库
提出了一种轻量级的实时手语检测模型,该模型使用基于人体姿态估计的光流特征,并使用线性分类器对其进行了评估,证明其准确性达到了 80%。将递归模型直接应用于输入时,准确率提高了至多 91%,而仍然在 4ms 内运行,由此展示了其在视频会议应用中的使用可能性。
Aug, 2020
通过对三种受欢迎的姿势估计器进行比较,本文发现通过关键点规范化、遗漏关键点插值和学习姿态嵌入,可以获得更好的结果并实现迁移学习,这些结果可能对未来的低资源手语语言特别有用。
Jun, 2023
基于 MediaPipe 和 CNN 的结合,对手语数据集进行高效准确的实时检测,并且通过对手势进行捕捉和处理,实现了一种无需触摸的命令输入方式,进而提高手势识别系统的准确性。
Jun, 2024
本文提出了一种新颖的姿态识别方法,该方法采用了图卷积网络和 BERT 模型分别捕捉视频中的空间和时间信息,并通过后期融合来识别手势,实验结果在常规数据集上获得了显著的准确率提升。
Dec, 2020
该篇研究论文提出了一种基于骨架动态特征和多模态特征融合的新型骨骼感知多模态框架,以提高手语识别的准确率,并进行了三个 “孤立 SLR 数据集” 的实验验证,并且实现了最先进的 SLR 性能.
Oct, 2021
本研究描述了一种使用现代计算机视觉和机器学习方法的实时美国手语识别系统,该方法使用 Mediapipe 库进行特征提取和卷积神经网络进行手势分类。测试结果显示,该系统能够以 99.95%的准确率检测所有 ASL 字母,表明其在听障人士的通信设备中的潜力。该方法也可以应用于具有类似手势的其他手语,从而提高听力损失者的生活质量。总的来说,本研究证明了使用 Mediapipe 和 CNN 进行实时手语识别的有效性,为计算机视觉和机器学习领域做出了重要贡献。
May, 2023
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
Jun, 2024
引入了 SignGAN 来通过运用 Mixture Density Network (MDN) 的 transformer 架构,提出了一个新颖的基于关键点的损失函数,实现了从口语翻译成骨骼姿势,再生成连续的手势语视频。使用 8 个手语翻译者的数据集,证明了该方法在定性和定量上均优于基线方法。
Nov, 2020
本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们使用了一个轻量级的插件,不需要为新的模态包含单独的特征提取器,并在手语识别和翻译任务中应用了这些改变,提高了各自的性能。通过在 RWTH-PHOENIX-2014 数据集上进行评估,我们的方法在手语识别任务中将词错误率降低了 0.9,在翻译任务中,我们的方法在测试集上提高了大多数 BLEU 得分约 0.6。
Sep, 2023
通过提取身体、手部和面部关键点并将其编码为 2D 图像,本研究提出了一种孤立手语识别(ISLR)方法,通过卷积神经网络映射视觉和时间信息到手语标签,实验证明该方法在两个广为认可的巴西手语(LIBRAS)数据集上的性能指标超过了现有技术。此外,由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入,本方法更准确、更高效且更易于训练。
Apr, 2024