Sep, 2023

自监督视频 Transformer 用于孤立手语识别

TL;DR对孤立手语识别(ISLR)进行了自监督学习方法的深入分析,研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合,发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越,准确率达到 79.02%。通过对多样的语音学特征进行线性探测,证明了这些模型产生 ASL 手势表示的能力,强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上,掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。