跨数据集的转移学习在资源有限的数据集中的孤立手语识别
提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题,该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征,得到了在手语识别方面的最新性能。
Mar, 2020
该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别,通过识别跨语种手语并将其作为辅助训练数据,从而提高其识别能力。实验结果表明,该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。
Aug, 2023
本研究分析了 ChaLearn LAP 大规模无关签名 SLR 挑战赛的结果,结果显示该赛事从很多方面挑战了现有的 SLR 模型,并提出了各种应对挑战的方案,但模型仍然不能区分非常相似的手势。
May, 2021
本文提出了一种简单的基于迁移学习的手语翻译模型,通过预训练模型的视觉网络和语言网络来完成迁移学习,进一步提高了手语翻译模型效果。经实验证明,该模型能够显著优于之前的基于手语翻译结果,为今后的手语翻译研究提供了有效的基准。
Mar, 2022
对孤立手语识别(ISLR)进行了自监督学习方法的深入分析,研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合,发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越,准确率达到 79.02%。通过对多样的语音学特征进行线性探测,证明了这些模型产生 ASL 手势表示的能力,强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上,掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。
Sep, 2023
通过两阶段的框架提出了 SSVP-SLT,该框架应对了缺乏对齐字幕的手语数据的问题,并解决了基于大规模网络抓取的数据集存在的隐私风险,通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。
Feb, 2024
通过提取身体、手部和面部关键点并将其编码为 2D 图像,本研究提出了一种孤立手语识别(ISLR)方法,通过卷积神经网络映射视觉和时间信息到手语标签,实验证明该方法在两个广为认可的巴西手语(LIBRAS)数据集上的性能指标超过了现有技术。此外,由于依赖于更简单的网络架构和仅使用 RGB 数据作为输入,本方法更准确、更高效且更易于训练。
Apr, 2024
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架,该方法无需时间分割预处理、可以缩小语义差距,并在实验中得到了验证。
Jan, 2018