基于深度学习的手语识别方法综述
本文介绍了一个新的大规模美国手语单词语义(WLASL)数据集,并实现了基于外观和人体姿态的 2 个模型,以及提出了一种新的基于姿态的时态图卷积网络(Pose-TGCN)方法,同时模拟人体姿态轨迹中的空间和时间依赖关系,为手语识别研究提供了一个有价值的基准实验平台。
Oct, 2019
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
该研究旨在利用计算机视觉技术和卷积神经网络,开发一种实时、基于印度手语的手语识别系统,以帮助印度的聋人和听力有障碍的人群。经过多次处理和训练,该模型的准确率达到了 99%。
Apr, 2023
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018
该研究提供了一个公开的跨数据集转移学习基准,通过两个公开的土耳其手语识别数据集进行评估,使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法,实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。
Mar, 2024
这篇综述论文对手语识别相关的需求、挑战、问题、模态以及数据集等方面进行了全面的概述,并对过去十年的研究进展及现有现状下的 SLR 模型进行了回顾和总结,最后找到了该领域的研究差距和局限性,并提出了未来的研究方向,为读者和研究者提供了完整的关于 SLR 和最先进 SLR 模型的指导。
Apr, 2022
该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架,利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能,并引入了视频关键点网络作为新型的骨干网络来获得更好的结果。实验结果表明,该方法在三个广泛采用的基准测试数据集上均达到了最先进的性能。
Mar, 2023
本研究针对包括 1983 年至 2020 年间数量众多的手语识别论文,共计 300 余篇,400 余个试验结果进行了元研究,并对本领域标准数据集 RWTH-PHOENIX-Weather 2014 进行了 25 多个研究的精细分析。研究涵盖了该领域最先进的技术,为未来的工作和进一步扩展提供了可靠数据,同时揭示了该领域中存在的问题。此外,该元研究的源数据均已公开发布。
Aug, 2020