连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
我们引入了一种多任务 Transformer 模型 CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,以实现大词汇连续手语识别(CSLR)和手语检索。通过构建新的数据集注释,我们在大词汇环境中对 CSLR 进行了评估,并证明了通过精心选择损失函数,同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
May, 2024
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。
Jan, 2024
通过采用 CLIP 作为视觉主干骨架,在固定参数的同时引入一组可学习模块,AdaptSign 能够高效地适应连续手语识别任务,并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示,AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。
Apr, 2024
提出了一种使用基于 Transformer 模型的新方法,该方法专注于提高准确性,同时消除对手工特征的依赖,用于连续手语识别和单独手语识别,并通过对手势键点特征进行增强和最终分类来检测连续手语视频中单独手语的边界,对两个数据集进行了评估,取得了有希望的结果。
Feb, 2024
提出了一种基于连接时序分类 (CTC) 目标函数和交叉模态增强的新型架构,来提高连续手语识别系统的性能,通过实现词频错误率的计算过程实现跨模态数据的增强和伪数据生成,有效地拓宽了数据集,提升了预测准确率。
Oct, 2020
电脑识别视频中孤立符号存在着一些困难,其中包括手语者之间的口头和非口头的同步变化以及特定符号的实现中存在的社会语言学变化。本文概述了这些挑战,并基于大规模的语言学注释视频数据的发现,对美国手语的符号结构中的某些规律进行了讨论。
Nov, 2023
该研究提供了一个公开的跨数据集转移学习基准,通过两个公开的土耳其手语识别数据集进行评估,使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法,实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。
Mar, 2024
该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别,利用 Regressional Feature Extraction 进行预训练,证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。
该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架,该方法无需时间分割预处理、可以缩小语义差距,并在实验中得到了验证。
Jan, 2018