利用音韵学提高符号识别效果
我们学习了图形卷积网络来识别 ASL-LEX 2.0 中的十六种手语音素类型,通过多任务学习和课程学习等学习策略实现了对手语音素更好的建模。在 Sem-Lex 基准测试中,课程学习的平均准确率为 87%,在大多数音素类型中优于微调和多任务策略。
Sep, 2023
对孤立手语识别(ISLR)进行了自监督学习方法的深入分析,研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合,发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越,准确率达到 79.02%。通过对多样的语音学特征进行线性探测,证明了这些模型产生 ASL 手势表示的能力,强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上,掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。
Sep, 2023
本研究介绍了自然语言处理(NLP)领域中较为被忽视的手语处理任务,其中重点关注手语音系学建模的任务。通过构建一个大规模的美国手语数据集并运用 数据驱动的端到端和基于特征的方法,研究表明使用基于骨骼特征提取的基于图的神经网络模型可以在不同程度上自动识别六种不同的手语音系学特性, 哪怕在没有经过训练的手语中也可以进行这种自动识别。
Mar, 2022
手语识别和翻译技术有潜力提高聋人手语社区的参与和包容性,但由于缺乏代表性数据,研究进展受到限制。我们引入了美国手语(ASL)建模的新资源,即 Sem-Lex 基准。该基准是目前最大的资源,包含超过 84,000 个由同意并得到补偿的聋人 ASL 手语者的孤立手语视频。我们使用 ASL-LEX 的语言信息进行一系列实验证明了 Sem-Lex 基准在孤立手语识别方面的实用性和公平性。我们使用 SL-GCN 模型显示,语音特征可达到 85% 的准确率,并且作为辅助目标对孤立手语识别有 6% 的准确率提高,整体准确率提高 2%。数据的下载指南可以在此 https URL 找到。
Sep, 2023
通过提取身体、手部和面部关键点并将其编码为 2D 图像,本研究提出了一种孤立手语识别(ISLR)方法,通过卷积神经网络映射视觉和时间信息到手语标签,实验证明该方法在两个广为认可的巴西手语(LIBRAS)数据集上的性能指标超过了现有技术。此外,由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入,本方法更准确、更高效且更易于训练。
Apr, 2024
该研究旨在利用计算机视觉技术和卷积神经网络,开发一种实时、基于印度手语的手语识别系统,以帮助印度的聋人和听力有障碍的人群。经过多次处理和训练,该模型的准确率达到了 99%。
Apr, 2023
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
Oct, 2023
该论文提出了一种自然语言辅助手语识别 (NLA-SLR) 框架,利用手语词汇中的语义信息来降低手语识别中存在的视觉相似性 (VISigns) 问题。该论文设计了语言辅助标签平滑和交互式混合等技术来提高识别性能,并引入了视频关键点网络作为新型的骨干网络来获得更好的结果。实验结果表明,该方法在三个广泛采用的基准测试数据集上均达到了最先进的性能。
Mar, 2023
该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别,通过识别跨语种手语并将其作为辅助训练数据,从而提高其识别能力。实验结果表明,该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。
Aug, 2023
发布了迄今最大的孤立手语识别数据集 ASL Citizen,该数据集包含 83,912 个视频,由 52 名手语用户在各种环境中拍摄了 2,731 个不同的手势,并提出应将该数据集用于手语字典检索,使用我们数据集训练监督学习分类器在手语字典检索方面极大地提高了性能。
Apr, 2023