该篇研究论文提出了一种基于骨架动态特征和多模态特征融合的新型骨骼感知多模态框架,以提高手语识别的准确率,并进行了三个 “孤立 SLR 数据集” 的实验验证,并且实现了最先进的 SLR 性能.
Oct, 2021
提出了一个骨架感知的多模式手语识别框架 (SAM-SLR),使用多种模态信息来提高识别率,并在 2021 年 Looking at People 大规模独立手语识别挑战赛中获得了最高性能。
Mar, 2021
该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架,该方法无需时间分割预处理、可以缩小语义差距,并在实验中得到了验证。
Jan, 2018
通过引入新的空间架构和时间模块,本研究提出的方法在四个大型手语识别基准测试中实现了最先进的准确性,同时相对于基于 RGB 的方法更节省计算资源,提供了更好的准确性与计算效益的平衡。
Mar, 2024
本文提出了使用全卷积网络 (FCN) 实现在线手语识别的方法,同时从仅具有句子级注释的弱注释视频序列中学习空间和时间特征,通过引入一个手语特征增强 (GFE) 模块来提高序列对齐学习的效果,实验表明该方法在连续手语识别上有效且在在线识别中表现出了较好的性能。
Jul, 2020
通过提取身体、手部和面部关键点并将其编码为 2D 图像,本研究提出了一种孤立手语识别(ISLR)方法,通过卷积神经网络映射视觉和时间信息到手语标签,实验证明该方法在两个广为认可的巴西手语(LIBRAS)数据集上的性能指标超过了现有技术。此外,由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入,本方法更准确、更高效且更易于训练。
Apr, 2024
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
Oct, 2023
本文提出了两种解决方案来解决句子级手语识别问题,并通过使用连接主义时间分类(CTC)作为两种模型的分类器层,介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后,作者通过进行超参数搜索,包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等,获得了 35% 的字词错误率(WER)。
Nov, 2022
提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题,该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征,得到了在手语识别方面的最新性能。
Mar, 2020
利用 BERT 预训练技术和领域特定的统计信息,通过 Pose Triplet Units 训练 SLR 模型,并在四个基准测试中实现了新的最优性能。
Feb, 2023