- SignCLIP:对比学习连接文字和手语
SignCLIP 通过重新利用 CLIP 将口语文本和手语视频投影到相同的空间中,用于学习大规模、多语言视频文本对中有用的视觉表示,旨在处理手语。SignCLIP 在 Spreadthesign 上进行预训练,通过不同的下游数据集评估其性能 - 通过 Mediapipe 和卷积神经网络(CNN)提升手语检测
基于 MediaPipe 和 CNN 的结合,对手语数据集进行高效准确的实时检测,并且通过对手势进行捕捉和处理,实现了一种无需触摸的命令输入方式,进而提高手势识别系统的准确性。
- 双立体:手语三维动作重建与生成
通过使用基于变分自编码器的 Transformer 结构和课程学习策略,我们提出了 SignAvatar 框架,在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 - CorrNet+: 空间 - 时间相关性的手语识别和翻译
本文介绍了一种称为 CorrNet + 的空间 - 时间相关网络,它明确识别多帧中的人体轨迹,为进行手语的深入理解提供全面的视角。作为一个统一模型,CorrNet + 在连续手语识别(CSLR)和手语翻译(SLT)两个广泛的手语理解任务中实 - 利用混合现实技术进行中国手语教学
本文提出了一种创新的教学模型,利用实时单目视觉和混合现实技术进行手语教学,实现手语语义保留和实时反馈,引入三元系统评估算法进行全面评估,构建基于场景的三维手语教室,并探索场景教学的用户体验。通过提供沉浸式学习体验、先进的姿势重建和精确的反馈 - 使用两阶段方法学习打分手语
我们分析了现有的性能评估技术,并采用在人体姿势重建任务中表现良好的方法,结合运动旋转嵌入表达,提出了一个两阶段手语表演评估流程。实验证明,与端到端评估相比,我们的方法提供了良好的分数反馈机制,并与专业评估具有较高的一致性。
- 手语深度伪造的生成与检测 —— 语言和视觉分析
利用深度伪造技术生成上半身的虚拟形象,配合手语并由专家审核,为聋哑人士群体带来积极应用的研究。通过构建可靠的深度伪造数据集,评估其技术和视觉可信度,并评估生成内容的可信度。该研究对健康和教育领域具有潜在益处,并可用于检测可能针对特定群体的伪 - 一个实时的人工智能学习手语的系统
开发一种基于人工智能的成本效益高、资源高效和开放的技术,旨在帮助人们学习和使用手语进行交流,以促进社会的包容性。该研究分析了基于人工智能的手语解决方案,特别聚焦美国手语,取得了令人满意的初步结果,并为进一步发展奠定了基础。
- BdSLW60: 一个词汇级别的孟加拉手语数据集
本文介绍了一种新的方法,基于一个全面的 Bangla 手势词级数据集(BdSLW60),通过在不受约束的自然环境中捕捉手势的动态特性,允许位置和时间上的变化,并允许手势使用者自由更改手势的手的主导性,进而实现手势识别任务。
- 美国手语视频文本翻译
手语转文字是一项关键技术,可以消除听障者之间的交流障碍。我们在最近发表的研究上进行复制并进行改进,通过使用 BLEU 和 rBLEU 度量来评估模型的翻译质量。在我们的消融研究中,我们发现模型的性能受到优化器、激活函数和标签平滑的显著影响。 - 手语培训计划:ISENSE 项目中通过虚拟现实实现的社会融合
ISENSE 项目旨在为聋人学生提供不同的技术工具来在学术背景下教授手语,并通过利用虚拟现实环境开发一个应用程序,以快速易行地创建手语的综合数据库,并利用基于人工智能的软件来准确分类和识别静态和动态手语:从字母到句子。
- SignAvatars:大规模 3D 手语整体运动数据集与基准
本文介绍了 SignAvatars 这个大规模的多提示 3D 手语运动数据集,旨在弥合听障个体之间的交流障碍;数据集涵盖包括隔离的手势和连贯的手势在内的 70,000 个视频,共计 8.34 百万帧,提供了自动化注释流水线以及 3D 手语的 - 探索手语音系学建模策略
我们学习了图形卷积网络来识别 ASL-LEX 2.0 中的十六种手语音素类型,通过多任务学习和课程学习等学习策略实现了对手语音素更好的建模。在 Sem-Lex 基准测试中,课程学习的平均准确率为 87%,在大多数音素类型中优于微调和多任务策 - 走向现实世界中的美国手语处理:数据、任务和方法
这篇论文研究了自然环境下手语的自动处理,包括手指拼写、手势识别和手语翻译,并提出了新的数据集、任务和方法。
- ACLISLTranslate:印度手语翻译数据集
ISLTranslate is introduced as the largest translation dataset for continuous Indian Sign Language, consisting of 31k ISL - 法国手语图形化表现及软件编辑
本文提出了一种用于编辑标准手语图形形式的定义方法,并提出了一个名为 “AZVD” 的试验系统和软件编辑器。该系统灵感来源于某些语言用户产生的自发图表的规律性,以尽可能地使其易于采用。此外,它建立在正式表示模型 AZee 上,以便系统产生的任 - 基于计算机视觉的中国手语双向翻译系统
该研究使用轻量级神经网络模型和 Bert-Base-Chinese 模型开发了一种适用于中文手语的实时翻译系统,经过性能测试表明其识别准确率达到了 99.3%,翻译生成的时间大约为 1.3 秒。
- 口语转手语翻译开源基于词汇的基线
本篇研究实现了一个从文字到手语的系统,并提出了三个不同的组件来实现文字到手语的转换,包括一个词形还原器、一个基于规则的单词重排和删除组件以及一个神经机器翻译系统。将手语姿势从视频中提取出来,用于三种不同的手语语言中的词汇表进行手语姿势转换。 - 运动基于手势语言视频摘要使用曲率和扭率
本文提出了一种基于曲率和挠率的新方法,将三维运动建模成为视频中关键帧的选择依据,并在手语视频中进行了多个实验,通过地面真值关键帧注释、人为理解的人类评估以及术语分类等多方面,证明了该方法的实用性与可行性。
- 手语识别技术和算法的比较分析
该研究比较了各种深度学习技术对手语的识别,旨在提供这一领域中最新方法和挑战的综合概述。