- PenSLR: 波斯语端到端手语识别使用合奏
本文介绍了 PenSLR,一种基于手套的手语识别系统,采用惯性测量单元(IMU)和五个柔性传感器,结合深度学习框架以及利用连接主义时序分类(CTC)损失函数,通过多序列比对算法提供的新方法进行集成,优化其在波斯手语上的性能表现,实验结果显示 - 自监督空间 - 时间一致性的手语识别的表征学习
通过自我监督对比学习框架,从两个不同角度挖掘富含上下文的手势姿势数据的时空一致性,并学习用于手势识别的实例辨别表示,以提高性能。
- MASA: 带有语义对齐的运动感知遮挡自编码器用于手语识别
提出了一种结合丰富的动作线索和全局语义信息的运动感知遮蔽自编码器(MASA)框架,通过自我监督学习范式实现对手语的全面表示,实现了在四个公共基准测试上的最先进性能。
- 多流关键点注意力网络用于手语识别和翻译
提出了一种多流关键点注意网络,用于描述由现有的关键点估计器生成的关键点序列,并通过额外的翻译网络将其扩展为一种手语翻译模型,实现了 Phoenix-2014T 手语翻译任务的最新技术水平。
- 优化 MediaPipe Holistic 全身姿势估计中的手部区域检测以提高精度和避免下游错误
本文针对 MediaPipe Holistic 中手部区域兴趣(ROI)预测存在的关键缺陷进行研究,该缺陷影响手势语言识别的准确性。我们提出了一种基于数据驱动的方法来增强 ROI 估计,利用丰富的特征集,包括额外的手关键点和 z 维度。我们 - 通过骨架图像表示增强巴西手语识别
通过提取身体、手部和面部关键点并将其编码为 2D 图像,本研究提出了一种孤立手语识别(ISLR)方法,通过卷积神经网络映射视觉和时间信息到手语标签,实验证明该方法在两个广为认可的巴西手语(LIBRAS)数据集上的性能指标超过了现有技术。此外 - 基于 YOLOv5 算法的泰卢固手语识别
通过使用 YOLOv5 对象识别框架,本研究提出了一种新颖的方法来识别 TSL 手势,为聋哑社区提供准确和成功的手势识别方法。利用迁移学习方法,将 YOLOv5 模型定制为 TSL 手势,经过调参和优化,获得了 90.5% 的 F1 值和 - CorrNet+: 空间 - 时间相关性的手语识别和翻译
本文介绍了一种称为 CorrNet + 的空间 - 时间相关网络,它明确识别多帧中的人体轨迹,为进行手语的深入理解提供全面的视角。作为一个统一模型,CorrNet + 在连续手语识别(CSLR)和手语翻译(SLT)两个广泛的手语理解任务中实 - 跨数据集的转移学习在资源有限的数据集中的孤立手语识别
该研究提供了一个公开的跨数据集转移学习基准,通过两个公开的土耳其手语识别数据集进行评估,使用基于时间图卷积的手语识别方法研究了五种有监督的转移学习方法,实验证明专业的有监督转移学习方法可以在闭集和部分集的数据集转移学习中获得比微调更好的性能 - 手语人工智能研究中的系统偏见:聋人呼吁重新评估研究议程
对手语人工智能领域的 101 篇近期研究论文进行了系统审查,发现该领域存在系统性偏见,缺乏代表性数据集,使用缺乏语言基础的注释以及构建在有缺陷模型上的方法,最终得出结论:该领域需要开放空间,让聋人研究者引领手语人工智能的讨论。
- 基于运动关注机制和帧级自蒸馏的连续手语识别
基于运动注意机制和帧级别自蒸馏的符号语言连续识别模型,能有效地提取视频中的符号语言运动信息,提高连续符号语言识别的准确性并达到最新水平。
- 连续手语边界检测的 Transformer 模型
提出了一种使用基于 Transformer 模型的新方法,该方法专注于提高准确性,同时消除对手工特征的依赖,用于连续手语识别和单独手语识别,并通过对手势键点特征进行增强和最终分类来检测连续手语视频中单独手语的边界,对两个数据集进行了评估,取 - SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句 - 面向在线手语识别和翻译
填补聋人与听人之间沟通鸿沟的目标是手语识别。以往的研究使用了已经成熟的 CTC 模型进行训练,而本文则是首次尝试使用滑动窗口方法实现手语的在线识别。
- 使用可穿戴传感器和机器学习的手语对话翻译
本文介绍了一个基于可穿戴设备的自动手语识别系统的概念验证,该系统通过采集动态手语的数据序列并使用机器学习方法来解释一组美国手语(ASL)动态单词。建立的模型达到了高质量的性能,如随机森林模型准确率达到了 99%,支持向量机(SVM)和两个 - Sem-Lex 基准测试:对 ASL 手势及其音素模型化
手语识别和翻译技术有潜力提高聋人手语社区的参与和包容性,但由于缺乏代表性数据,研究进展受到限制。我们引入了美国手语(ASL)建模的新资源,即 Sem-Lex 基准。该基准是目前最大的资源,包含超过 84,000 个由同意并得到补偿的聋人 A - ICCV人体部分间 3D 动作上下文学习用于手语识别
本文提出了 P3D(人体部分运动上下文学习框架)用于手语识别。我们的主要贡献在于两个方面:学习部分运动上下文和利用 2D 和 3D 姿势联合。
- 俄罗斯手语数据集
本文提出了使用众包平台生成的俄罗斯手语视频数据集 Slovo,其中包含 1,000 个类别的 RSL 手势,由 194 名使用者接收,同时提供了从数据收集到视频标注的整个数据集创建流程和几个利用该数据集所训练和评估的神经网络,旨在展现其教学 - 基于图像的印度手语识别:使用深度神经网络的实用综述
该研究旨在利用计算机视觉技术和卷积神经网络,开发一种实时、基于印度手语的手语识别系统,以帮助印度的聋人和听力有障碍的人群。经过多次处理和训练,该模型的准确率达到了 99%。
- CVPR基于树结构骨架图像的独立手语识别
使用 TSSI 系统改进骨架模型在手语识别方面的效果。