利用混合现实技术进行中国手语教学
ISENSE 项目旨在为聋人学生提供不同的技术工具来在学术背景下教授手语,并通过利用虚拟现实环境开发一个应用程序,以快速易行地创建手语的综合数据库,并利用基于人工智能的软件来准确分类和识别静态和动态手语:从字母到句子。
Jan, 2024
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。
Jan, 2024
该研究使用轻量级神经网络模型和 Bert-Base-Chinese 模型开发了一种适用于中文手语的实时翻译系统,经过性能测试表明其识别准确率达到了 99.3%,翻译生成的时间大约为 1.3 秒。
Jun, 2023
通过引入具有普遍适用性的新颖语言学先验,SGNify 可以从现场 SL 视频中全自动捕获手势、面部表情和身体动作,从而在学习 SL 时取代视频字典的 3D avatar 可以提高对技术和在线媒体的获取能力和 AR/VR 应用,并在 SL 视频上优于现有 3D 身体姿势和形状估计方法。
Apr, 2023
虚拟现实在多个领域中得到了证明:从游戏、医学和培训到人机协作界面的开发,它能够帮助设计师在超越真实环境限制的情况下探索应用,并开发创新的解决方案和体验。对于在虚拟领域借助自然而直观的手势实现协同机器人操作,需要创建大量的数据集,以便使工作界面易于学习和灵活添加手势。由于计算或经济限制,这可能具有一定的挑战性,因此将在真实环境中表现良好的深度学习模型调整到虚拟领域可能是解决方案。本文提出了一个系统的框架,通过虚拟数据集的有限大小实现从真实到虚拟的适应,并提供了创建策划数据集的指导方针。最后,虽然手势被视为通信模式,但所提供的指南和建议是通用的,适用于其他模式,如身体姿势和面部表情,这些模式在真实领域中有大量可用的数据集,需要适应到虚拟领域。
Jul, 2023
提出了一种轻量级的实时手语检测模型,该模型使用基于人体姿态估计的光流特征,并使用线性分类器对其进行了评估,证明其准确性达到了 80%。将递归模型直接应用于输入时,准确率提高了至多 91%,而仍然在 4ms 内运行,由此展示了其在视频会议应用中的使用可能性。
Aug, 2020
通过使用基于变分自编码器的 Transformer 结构和课程学习策略,我们提出了 SignAvatar 框架,在缺乏真实世界中 3D 手语数据、手语动作复杂微妙性和多模态手语语义交叉理解的情况下具备单词级手语重建和生成的能力。我们贡献的 ASL3DWord 数据集包含了身体、手部和面部的 3D 关节旋转数据,通过大量实验展示了 SignAvatar 在重建和自动生成方面的卓越能力。
May, 2024
通过混合现实系统,我们创建了一种创新的混合现实社交推荐模型,利用用户的注视识别、距离、噪音水平、拥堵程度和对话强度等特征来促进社交互动,并通过加入实时特征提供及时通知。尽管数据收集和成本方面存在限制,我们对包含不同特征类别的四种模型进行了比较,发现实时、混合现实和综合模型的性能下降,但我们引入了优化措施,在所有模型的准确性上提高了 14 个百分点,最佳模型的准确性提高了 24%。
Apr, 2024