跨数据集的转移学习在资源有限的数据集中的孤立手语识别

Mar, 2024

跨数据集的转移学习在资源有限的数据集中的孤立手语识别

Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets

Ahmet Alp Kindiroglu, Ozgur Kara, Ogulcan Ozdemir, Lale Akarun

TL;DR该研究提供了一个公开的跨数据集转移学习基准，通过两个公开的土耳其手语识别数据集进行评估，使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法，实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。

Abstract

sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these

sign language recognition deep neural networks transfer learning annotated datasets supervised transfer learning

发现论文，激发创造

视频手语识别跨领域知识传递

提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题，该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征，得到了在手语识别方面的最新性能。

Mar, 2020

利用跨语言手势改进连续手语识别

该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别，通过识别跨语种手语并将其作为辅助训练数据，从而提高其识别能力。实验结果表明，该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。

Aug, 2023

ChaLearn LAP 大规模独立演讲者隔离手语识别挑战赛：设计，结果与未来研究

本研究分析了 ChaLearn LAP 大规模无关签名 SLR 挑战赛的结果，结果显示该赛事从很多方面挑战了现有的 SLR 模型，并提出了各种应对挑战的方案，但模型仍然不能区分非常相似的手势。

May, 2021

简单的多模态迁移学习基准方法用于手语翻译

本文提出了一种简单的基于迁移学习的手语翻译模型，通过预训练模型的视觉网络和语言网络来完成迁移学习，进一步提高了手语翻译模型效果。经实验证明，该模型能够显著优于之前的基于手语翻译结果，为今后的手语翻译研究提供了有效的基准。

Mar, 2022

自监督视频 Transformer 用于孤立手语识别

对孤立手语识别（ISLR）进行了自监督学习方法的深入分析，研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合，发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越，准确率达到 79.02％。通过对多样的语音学特征进行线性探测，证明了这些模型产生 ASL 手势表示的能力，强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上，掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。

Sep, 2023

基于深度学习的手语识别方法综述

通过实验评估了基于计算机视觉的手语识别方法，并引入了新的序列训练标准，讨论了许多预训练方案，并创建了带注释的希腊手语 RGB + D 数据集。

Jul, 2020

朝着规模化的注重隐私的手语翻译

通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Feb, 2024

通过骨架图像表示增强巴西手语识别

通过提取身体、手部和面部关键点并将其编码为 2D 图像，本研究提出了一种孤立手语识别（ISLR）方法，通过卷积神经网络映射视觉和时间信息到手语标签，实验证明该方法在两个广为认可的巴西手语（LIBRAS）数据集上的性能指标超过了现有技术。此外，由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入，本方法更准确、更高效且更易于训练。

Apr, 2024

连续手语识别技术的比较研究

连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估，并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法，并采用不同的训练策略。通过在多个数据集上评估这些模型，特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL，分别代表着不同的手语，来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准，并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。

Jun, 2024

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018