基于 MediaPipe 和 CNN 的结合,对手语数据集进行高效准确的实时检测,并且通过对手势进行捕捉和处理,实现了一种无需触摸的命令输入方式,进而提高手势识别系统的准确性。
Jun, 2024
基于影像及语言学特性,本研究提出了一种有效且高效的学习手语表示的方法,专注于手势视频中的脸部、手部和身体姿态,并通过自监督学习的方式学习手语中复杂的手形和丰富的面部表情,实现对手语翻译的新突破。
本研究描述了一种使用现代计算机视觉和机器学习方法的实时美国手语识别系统,该方法使用 Mediapipe 库进行特征提取和卷积神经网络进行手势分类。测试结果显示,该系统能够以 99.95%的准确率检测所有 ASL 字母,表明其在听障人士的通信设备中的潜力。该方法也可以应用于具有类似手势的其他手语,从而提高听力损失者的生活质量。总的来说,本研究证明了使用 Mediapipe 和 CNN 进行实时手语识别的有效性,为计算机视觉和机器学习领域做出了重要贡献。
May, 2023
通过使用卷积神经网络和 LSTM 模型进行手势和静态手语识别,研究开发了一种印度手语转换为文本或语音的文本 - 手语翻译模型,可以帮助聋人和听障人士在社交、教育和职业场境中进行更准确的交流。
Apr, 2023
利用深度伪造技术生成上半身的虚拟形象,配合手语并由专家审核,为聋哑人士群体带来积极应用的研究。通过构建可靠的深度伪造数据集,评估其技术和视觉可信度,并评估生成内容的可信度。该研究对健康和教育领域具有潜在益处,并可用于检测可能针对特定群体的伪造视频。
Apr, 2024
验证 Google MediaPipe Hand (GMH) 及其改进版本 GMH-D 对 3D 手部运动的准确跟踪的有效性,并证明 GMH-D 在临床应用中评估 3D 手部运动方面的优越性。
Aug, 2023
该研究利用 SPOTER 架构和 MediaPipe 技术,实现更高效、精准的手语识别,成功创建了首个公开的在线手语翻译应用。
Sep, 2022
该研究通过优化算法、提高准确性、计算效率和实时处理能力,在人体姿势估计方面取得了重要的进展;改进后的框架在动态运动和部分遮挡等复杂场景下显著提高了准确性,在增强现实、体育分析和医疗保健等方面具有广泛的应用,同时还探索了将这些改进应用于移动和嵌入式系统中,以提高计算效率和扩大可访问性;该研究为实时人体姿势估计技术确立了新的标准,并为未来的创新铺平了道路。
通过实验评估了基于计算机视觉的手语识别方法,并引入了新的序列训练标准,讨论了许多预训练方案,并创建了带注释的希腊手语 RGB + D 数据集。
Jul, 2020
提出了一种轻量级的实时手语检测模型,该模型使用基于人体姿态估计的光流特征,并使用线性分类器对其进行了评估,证明其准确性达到了 80%。将递归模型直接应用于输入时,准确率提高了至多 91%,而仍然在 4ms 内运行,由此展示了其在视频会议应用中的使用可能性。
Aug, 2020