基于 GCN 和 BERT 的姿势型手语识别

Dec, 2020

基于 GCN 和 BERT 的姿势型手语识别

Pose-based Sign Language Recognition using GCN and BERT

Anirudh Tunga, Sai Vidyaranya Nuthalapati, Juan Wachs

TL;DR本文提出了一种新颖的姿态识别方法，该方法采用了图卷积网络和 BERT 模型分别捕捉视频中的空间和时间信息，并通过后期融合来识别手势，实验结果在常规数据集上获得了显著的准确率提升。

Abstract

sign language recognition (SLR) plays a crucial role in bridging the communication gap between the hearing and vocally impaired community and the rest of the society. Word-level sign language recognition (WSLR) i

sign language recognition word-level recognition pose-based approach spatial and temporal information bidirectional encoder representations from transformers

发现论文，激发创造

通过骨架感知多模型合集进行手语识别

该篇研究论文提出了一种基于骨架动态特征和多模态特征融合的新型骨骼感知多模态框架，以提高手语识别的准确率，并进行了三个 “孤立 SLR 数据集” 的实验验证，并且实现了最先进的 SLR 性能.

Oct, 2021

骨架感知多模态手语识别

提出了一个骨架感知的多模式手语识别框架 (SAM-SLR)，使用多种模态信息来提高识别率，并在 2021 年 Looking at People 大规模独立手语识别挑战赛中获得了最高性能。

Mar, 2021

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018

骨架感知手语识别的动态时空聚合

通过引入新的空间架构和时间模块，本研究提出的方法在四个大型手语识别基准测试中实现了最先进的准确性，同时相对于基于 RGB 的方法更节省计算资源，提供了更好的准确性与计算效益的平衡。

Mar, 2024

用于连续手语识别的全卷积网络

本文提出了使用全卷积网络 (FCN) 实现在线手语识别的方法，同时从仅具有句子级注释的弱注释视频序列中学习空间和时间特征，通过引入一个手语特征增强 (GFE) 模块来提高序列对齐学习的效果，实验表明该方法在连续手语识别上有效且在在线识别中表现出了较好的性能。

Jul, 2020

通过骨架图像表示增强巴西手语识别

通过提取身体、手部和面部关键点并将其编码为 2D 图像，本研究提出了一种孤立手语识别（ISLR）方法，通过卷积神经网络映射视觉和时间信息到手语标签，实验证明该方法在两个广为认可的巴西手语（LIBRAS）数据集上的性能指标超过了现有技术。此外，由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入，本方法更准确、更高效且更易于训练。

Apr, 2024

不受帧序约束的手语识别：阿根廷手语的概念验证

该研究探讨了自动手语识别的问题，提出了一种基于概率模型的手语分类方法，通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试，证实了可以实现不考虑顺序的识别，并取得了 97% 的准确率。

Oct, 2023

基于句子级的手语识别框架

本文提出了两种解决方案来解决句子级手语识别问题，并通过使用连接主义时间分类（CTC）作为两种模型的分类器层，介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后，作者通过进行超参数搜索，包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等，获得了 35% 的字词错误率（WER）。

Nov, 2022

视频手语识别跨领域知识传递

提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题，该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征，得到了在手语识别方面的最新性能。

Mar, 2020

使用耦合记号化的 BERT 预训练进行手语识别

利用 BERT 预训练技术和领域特定的统计信息，通过 Pose Triplet Units 训练 SLR 模型，并在四个基准测试中实现了新的最优性能。

Feb, 2023