面向在线手语识别和翻译
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统的手语视频到口语 / 手语关键词到口语机器翻译模型。
Mar, 2020
该研究旨在通过利用多语种手语语料库来促进单一语种的连续手语识别,通过识别跨语种手语并将其作为辅助训练数据,从而提高其识别能力。实验结果表明,该方法在两个广泛使用的连续手语识别数据集上取得了最先进的性能。
Aug, 2023
本文提出了两种解决方案来解决句子级手语识别问题,并通过使用连接主义时间分类(CTC)作为两种模型的分类器层,介绍了 LRCN-based 模型和 Multi-Cue 网络的工作原理。在评估了 RWTH-PHOENIX-Weather 数据集后,作者通过进行超参数搜索,包括特征图数量、输入大小、批量大小、序列长度、LSTM 内存单元、正则化和失活等,获得了 35% 的字词错误率(WER)。
Nov, 2022
该研究提出了一种用 Hierarchical Attention Network 和 Latent Space 实现连续手语识别的新型框架,该方法无需时间分割预处理、可以缩小语义差距,并在实验中得到了验证。
Jan, 2018
连续手语识别 (CSLR) 着重于对连续进行而没有停顿的手语姿势序列的解释。本研究对最新的深度学习 CSLR 技术进行了实证评估,并评估其在各种数据集和手语中的表现。所选择的模型实施了一系列用于提取有意义特征的方法,并采用不同的训练策略。通过在多个数据集上评估这些模型,特别是 RWTH-PHOENIX-Weather-2014、ArabSign 和 GrSL,分别代表着不同的手语,来确定它们对建模不同手语的功效。所进行的实验在所选择的数据集上建立了新的基准,并为在具有挑战性场景下评估的技术的稳健性和泛化性提供了有价值的见解。
Jun, 2024
我们引入了一种多任务 Transformer 模型 CSLR2,可以在手语序列和口语文本之间输出联合嵌入空间,以实现大词汇连续手语识别(CSLR)和手语检索。通过构建新的数据集注释,我们在大词汇环境中对 CSLR 进行了评估,并证明了通过精心选择损失函数,同时训练模型进行 CSLR 和检索任务在性能上是互相有益的。利用 BOBSL 和英文字幕等大词汇数据集中的弱监督和嘈杂监督,我们的模型在两个任务上明显优于以往的最先进技术。
May, 2024
该研究使用轻量级神经网络模型和 Bert-Base-Chinese 模型开发了一种适用于中文手语的实时翻译系统,经过性能测试表明其识别准确率达到了 99.3%,翻译生成的时间大约为 1.3 秒。
Jun, 2023
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。
Jan, 2024
本文提出了使用全卷积网络 (FCN) 实现在线手语识别的方法,同时从仅具有句子级注释的弱注释视频序列中学习空间和时间特征,通过引入一个手语特征增强 (GFE) 模块来提高序列对齐学习的效果,实验表明该方法在连续手语识别上有效且在在线识别中表现出了较好的性能。
Jul, 2020
该研究探讨了自动手语识别的问题,提出了一种基于概率模型的手语分类方法,通过对具有 64 个类别和 3200 个样本的阿根廷手语数据集进行测试,证实了可以实现不考虑顺序的识别,并取得了 97% 的准确率。
Oct, 2023