使用耦合记号化的 BERT 预训练进行手语识别
本研究介绍了第一个可自我训练的可预训练 SignBERT,利用深度学习对手势姿态进行识别,同时采用先验手势信息进行数据训练以获得 SLR 任务的最佳实践。
Oct, 2021
本研究提出一种自监督预训练 SignBERT+ 框架,该框架采用模型可感知的手部先验,并将手势编码为可视令牌,以更好地捕捉序列上的层次性上下文,并在三个主要 SLU 任务上实现了具有显着性能增益的最新性能。
May, 2023
本文提出了一种新颖的姿态识别方法,该方法采用了图卷积网络和 BERT 模型分别捕捉视频中的空间和时间信息,并通过后期融合来识别手势,实验结果在常规数据集上获得了显著的准确率提升。
Dec, 2020
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。
Mar, 2020
本文介绍了一种半监督方法,利用对抗多任务迁移学习实现了手语翻译的 tokenization 任务, 并通过实验结果,在无需额外标注的情况下提高了手语翻译的翻译质量。
Feb, 2020
对孤立手语识别(ISLR)进行了自监督学习方法的深入分析,研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合,发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越,准确率达到 79.02%。通过对多样的语音学特征进行线性探测,证明了这些模型产生 ASL 手势表示的能力,强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上,掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。
Sep, 2023
本文介绍了 PenSLR,一种基于手套的手语识别系统,采用惯性测量单元(IMU)和五个柔性传感器,结合深度学习框架以及利用连接主义时序分类(CTC)损失函数,通过多序列比对算法提供的新方法进行集成,优化其在波斯手语上的性能表现,实验结果显示 PenSLR 在单词准确率和句子准确率方面都取得了令人满意的成果。
Jun, 2024
该研究提供了一个公开的跨数据集转移学习基准,通过两个公开的土耳其手语识别数据集进行评估,使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法,实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。
Mar, 2024
本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT(ST-BERT),通过两种预训练任务(Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling)学习上下文跨模态对齐,对端到端的口语语言理解任务进行了解决,实验结果证明,该方法有效。同时,我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。
Oct, 2020
本研究提出了一种新的基于对比学习的变形注意力模型,该模型能够从身体关键点序列中学习丰富的表示,用于手语分类和翻译任务,并通过实验证明其可以推而广之。
Apr, 2022