自监督视频 Transformer 用于孤立手语识别

Sep, 2023

自监督视频 Transformer 用于孤立手语识别

Self-Supervised Video Transformers for Isolated Sign Language Recognition

Marcelo Sandoval-Castaneda, Yanhong Li, Diane Brentari, Karen Livescu, Gregory Shakhnarovich

TL;DR对孤立手语识别（ISLR）进行了自监督学习方法的深入分析，研究了四种最新的基于 Transformer 的方法和四种预训练数据方案在 WLASL2000 数据集上的组合，发现 MaskFeat 在基于手语的 WLASL2000 数据集上表现优越，准确率达到 79.02％。通过对多样的语音学特征进行线性探测，证明了这些模型产生 ASL 手势表示的能力，强调了架构和预训练任务选择在 ISLR 中的重要性。特别是在 WLASL2000 数据集上，掩码重构预训练的强大性能以及层次视觉 Transformer 在手语表示中的重要性得到了验证。

Abstract

This paper presents an in-depth analysis of various self-supervision methods for isolated sign language recognition (ISLR). We consider four recently introduced →

self-supervision methods isolated sign language recognition transformer-based approaches pre-training data regimes asl signs

发现论文，激发创造

连续手语边界检测的 Transformer 模型

提出了一种使用基于 Transformer 模型的新方法，该方法专注于提高准确性，同时消除对手工特征的依赖，用于连续手语识别和单独手语识别，并通过对手势键点特征进行增强和最终分类来检测连续手语视频中单独手语的边界，对两个数据集进行了评估，取得了有希望的结果。

Feb, 2024

利用音韵学提高符号识别效果

通过将语音学应用于手语产生过程中，训练出的模型预测手势及其语音学特征，从而实现对独立手语识别（ISLR）的模型训练，提高了在 WLASL 基准测试上的手势识别准确性达到了近 9% 的绝对增益，帮助缩小聋听者之间的沟通鸿沟。

Feb, 2023

视频手语识别跨领域知识传递

提出一种从互联网字幕手语新闻中学习转移知识的方法来克服手语物标数据稀缺和领域差异问题，该方法使用基于并联视觉概念和识别模型的特征对齐和记忆降低领域专有特征，得到了在手语识别方面的最新性能。

Mar, 2020

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018

跨数据集的转移学习在资源有限的数据集中的孤立手语识别

该研究提供了一个公开的跨数据集转移学习基准，通过两个公开的土耳其手语识别数据集进行评估，使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法，实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。

Mar, 2024

自监督学习在利用 Transformer 进行物体检测方面的实证研究

研究使用自监督学习中的图像重构、遮蔽图像建模和拼图等方法来训练物体检测转换器的编码器，以实现预训练和多任务学习，并在 iSAID 数据集上进行了初步实验。

May, 2022

朝着规模化的注重隐私的手语翻译

通过两阶段的框架提出了 SSVP-SLT，该框架应对了缺乏对齐字幕的手语数据的问题，并解决了基于大规模网络抓取的数据集存在的隐私风险，通过自监督视频预训练和面部模糊化来提高 SLT 性能和保护隐私。

Feb, 2024

探索自监督学习表征中的语音分离与识别集成

深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究，并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略，从而在噪声和混响环境下显著提升多说话人语音识别性能。

Jul, 2023

一种基于 Transformer 的对比学习方法应用于少样本手语识别

本研究提出了一种新的基于对比学习的变形注意力模型，该模型能够从身体关键点序列中学习丰富的表示，用于手语分类和翻译任务，并通过实验证明其可以推而广之。

Apr, 2022

基于 GCN 和 BERT 的姿势型手语识别

本文提出了一种新颖的姿态识别方法，该方法采用了图卷积网络和 BERT 模型分别捕捉视频中的空间和时间信息，并通过后期融合来识别手势，实验结果在常规数据集上获得了显著的准确率提升。

Dec, 2020