ASL-Skeleton3D 和 ASL-Phono:美式手语两个新数据集
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018
发布了迄今最大的孤立手语识别数据集 ASL Citizen,该数据集包含 83,912 个视频,由 52 名手语用户在各种环境中拍摄了 2,731 个不同的手势,并提出应将该数据集用于手语字典检索,使用我们数据集训练监督学习分类器在手语字典检索方面极大地提高了性能。
Apr, 2023
本研究介绍了自然语言处理(NLP)领域中较为被忽视的手语处理任务,其中重点关注手语音系学建模的任务。通过构建一个大规模的美国手语数据集并运用 数据驱动的端到端和基于特征的方法,研究表明使用基于骨骼特征提取的基于图的神经网络模型可以在不同程度上自动识别六种不同的手语音系学特性, 哪怕在没有经过训练的手语中也可以进行这种自动识别。
Mar, 2022
本研究的目的是为了解决计算手语研究中缺少大规模数据集的问题,并且分享了六个数据集和相关工具的收集过程以及用于推动未来研究的基准翻译结果。
May, 2021
提出了一种连续手语数据集生成系统,在发布了包含 30k 个句子、416k 个单词、总计 104 小时的 18k 单词词汇量的最大连续手语数据集时,该系统有助于总体 ASL 处理和特别有助于 ASL 生成。
Oct, 2022
我们发布了一个数据集,其中包含流利和不流利使用美国手语(ASL)的人的视频,该数据集是作为一个项目的一部分收集的,以开发和评估计算机视觉算法,以支持自动检测 ASL 流利度属性的新技术。该数据集可能对 ASL 教育研究人员也很有趣,因为它可以对比流利和不流利的签名。
Jul, 2022
开发一种基于人工智能的成本效益高、资源高效和开放的技术,旨在帮助人们学习和使用手语进行交流,以促进社会的包容性。该研究分析了基于人工智能的手语解决方案,特别聚焦美国手语,取得了令人满意的初步结果,并为进一步发展奠定了基础。
Feb, 2024
本文介绍了 SignAvatars 这个大规模的多提示 3D 手语运动数据集,旨在弥合听障个体之间的交流障碍;数据集涵盖包括隔离的手势和连贯的手势在内的 70,000 个视频,共计 8.34 百万帧,提供了自动化注释流水线以及 3D 手语的形态学注释,促进了 3D 手语识别和 3D 手语生成等任务的实施。
Oct, 2023
介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。
Aug, 2020
手语识别和翻译技术有潜力提高聋人手语社区的参与和包容性,但由于缺乏代表性数据,研究进展受到限制。我们引入了美国手语(ASL)建模的新资源,即 Sem-Lex 基准。该基准是目前最大的资源,包含超过 84,000 个由同意并得到补偿的聋人 ASL 手语者的孤立手语视频。我们使用 ASL-LEX 的语言信息进行一系列实验证明了 Sem-Lex 基准在孤立手语识别方面的实用性和公平性。我们使用 SL-GCN 模型显示,语音特征可达到 85% 的准确率,并且作为辅助目标对孤立手语识别有 6% 的准确率提高,整体准确率提高 2%。数据的下载指南可以在此 https URL 找到。
Sep, 2023