用于连续手语识别的全卷积网络
本文提出了 Structured Feature Network(SF-Net)来解决连续手语识别中词汇量丰富、对齐困难等挑战,该模型将信息逐步编码到帧、词和句三个层次的特征表示中,并且可以在无需其他模型或预训练的情况下进行端到端训练。实验结果表明,该模型在两个大规模的手语识别数据集上的表现明显优于先前的基于序列级监督的方法。
Aug, 2019
该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架,该方法无需时间分割预处理、可以缩小语义差距,并在实验中得到了验证。
Jan, 2018
该篇研究论文提出了一种基于骨架动态特征和多模态特征融合的新型骨骼感知多模态框架,以提高手语识别的准确率,并进行了三个 “孤立 SLR 数据集” 的实验验证,并且实现了最先进的 SLR 性能.
Oct, 2021
本文提出了两种解决方案来解决句子级手语识别问题,并通过使用连接主义时间分类(CTC)作为两种模型的分类器层,介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后,作者通过进行超参数搜索,包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等,获得了 35% 的字词错误率(WER)。
Nov, 2022
提出了一种基于人类骨骼运动的时空图卷积网络的手语识别方法,使用图来捕捉手语在二维空间和时间上的动态,并提供了一个新的 ASLLVD 人体骨架手语数据集以供未来的相关研究。
Jan, 2019
本研究旨在通过双通道 SlowFast 网络以及特殊的特征融合方法,有效提取连续手语识别中的时空特征,并在多个数据集上展示了该模型在空间和动态表示方面的优势。
Sep, 2023
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
Oct, 2023
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
本文提出了一种新颖的姿态识别方法,该方法采用了图卷积网络和 BERT 模型分别捕捉视频中的空间和时间信息,并通过后期融合来识别手势,实验结果在常规数据集上获得了显著的准确率提升。
Dec, 2020
通过 3D 卷积神经网络及得分融合方法,我们训练了针对主导手、双手、面部及上半身区域的不同模型,并比较它们的性能表现。实验结果表明,这种混合卷积模型的融合能够比使用完整上半身的基线提高高达 19% 的准确率,并提供有助于未来手语翻译的融合设置讨论。
Sep, 2020