利用跨语言手势改进连续手语识别

ICCVAug, 2023

利用跨语言手势改进连续手语识别

Improving Continuous Sign Language Recognition with Cross-Lingual Signs

Fangyun Wei, Yutong Chen

TL;DR该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别，通过识别跨语种手语并将其作为辅助训练数据，从而提高其识别能力。实验结果表明，该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。

Abstract

This work dedicates to continuous sign language recognition (CSLR), which is a weakly supervised task dealing with the recognition of continuous signs from videos, without any prior knowledge about the temporal b

continuous sign language recognition weakly supervised multilingual sign language corpora cross-lingual signs cslr datasets

发现论文，激发创造

连续手语识别技术的比较研究

连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估，并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法，并采用不同的训练策略。通过在多个数据集上评估这些模型，特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL，分别代表着不同的手语，来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准，并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。

Jun, 2024

两种语言的寓言：从口语监督中进行大词汇连续手语识别

我们引入了一种多任务 Transformer 模型 CSLR2，可以在手语序列和口语文本之间输出联合嵌入空间，以实现大词汇连续手语识别（CSLR）和手语检索。通过构建新的数据集注释，我们在大词汇环境中对 CSLR 进行了评估，并证明了通过精心选择损失函数，同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督，我们的模型在两个任务上明显优于以往的最先进技术。

May, 2024

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

利用多模态数据和语言模型的泛化能力，通过视觉 - 文本对比学习，提出了一种多模态连续手语识别框架 SignVTCL，它整合了视频、关键点和光流等多模态数据，训练了统一的视觉骨干并获得更强大的视觉表示，同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应，实验结果表明，SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。

Jan, 2024

改进的图像模型在连续手语识别中的应用

通过采用 CLIP 作为视觉主干骨架，在固定参数的同时引入一组可学习模块，AdaptSign 能够高效地适应连续手语识别任务，并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示，AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。

Apr, 2024

连续手语边界检测的 Transformer 模型

提出了一种使用基于 Transformer 模型的新方法，该方法专注于提高准确性，同时消除对手工特征的依赖，用于连续手语识别和单独手语识别，并通过对手势键点特征进行增强和最终分类来检测连续手语视频中单独手语的边界，对两个数据集进行了评估，取得了有希望的结果。

Feb, 2024

通过跨模态增强提高连续手语识别能力

提出了一种基于连接时序分类 (CTC) 目标函数和交叉模态增强的新型架构，来提高连续手语识别系统的性能，通过实现词频错误率的计算过程实现跨模态数据的增强和伪数据生成，有效地拓宽了数据集，提升了预测准确率。

Oct, 2020

面向美国手语的基于语言的计算机手势识别的挑战

电脑识别视频中孤立符号存在着一些困难，其中包括手语者之间的口头和非口头的同步变化以及特定符号的实现中存在的社会语言学变化。本文概述了这些挑战，并基于大规模的语言学注释视频数据的发现，对美国手语的符号结构中的某些规律进行了讨论。

Nov, 2023

跨数据集的转移学习在资源有限的数据集中的孤立手语识别

该研究提供了一个公开的跨数据集转移学习基准，通过两个公开的土耳其手语识别数据集进行评估，使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法，实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能。

Mar, 2024

基于自适应的 Conformer 的连续手语识别与无监督预训练

该研究通过使用 Conformer 和 Cross-Modal Relative Attention (CMRA) 来进行连续手语识别，利用 Regressional Feature Extraction 进行预训练，证明了这些方法在 PHOENIX-2014 和 PHOENIX-2014T 两个基准数据集上取得了最好的成果。

May, 2024

基于视频的手语识别，无需时间分割

该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架，该方法无需时间分割预处理、可以缩小语义差距，并在实验中得到了验证。

Jan, 2018