提出了一种连续手语数据集生成系统,在发布了包含 30k 个句子、416k 个单词、总计 104 小时的 18k 单词词汇量的最大连续手语数据集时,该系统有助于总体 ASL 处理和特别有助于 ASL 生成。
Oct, 2022
本文介绍了一个新的大规模美国手语单词语义(WLASL)数据集,并实现了基于外观和人体姿态的 2 个模型,以及提出了一种新的基于姿态的时态图卷积网络(Pose-TGCN)方法,同时模拟人体姿态轨迹中的空间和时间依赖关系,为手语识别研究提供了一个有价值的基准实验平台。
Oct, 2019
本文介绍了一种新的大规模多模式土耳其手语数据集 (AUTSL),为性能评估提供了基准模型;使用卷积神经网络提取特征、使用单向和双向 LSTM 模型表征时间信息,以及结合特征池化模块和时间注意力来提高模型性能。在 AUTSL 随机训练和测试集上,模型的表现达到了 95.95% 的准确度,并在提出的用户独立基准数据集上取得了 62.02% 的最佳基线模型效果。
Aug, 2020
发布了迄今最大的孤立手语识别数据集 ASL Citizen,该数据集包含 83,912 个视频,由 52 名手语用户在各种环境中拍摄了 2,731 个不同的手势,并提出应将该数据集用于手语字典检索,使用我们数据集训练监督学习分类器在手语字典检索方面极大地提高了性能。
Apr, 2023
本论文通过 Youtube-ASL,一个大规模的开放领域美国手语(ASL)视频语料库的介绍及研究,证明了手语机器学习的瓶颈在于数据问题,并使用 How2Sign 进行了模型基线培训及评估,并获得了新的微调技术的艺术的最高状态和首次报道的零 - shot 结果。
Jun, 2023
本文介绍了 OpenASL 数据集,包含超过 200 名大规模美国手语(ASL)- 英语翻译中对手语搜索作为预训练工作的技术和融合口型和手势特征等技术,这些技术相比基线模型产生了一致的显著提高。
May, 2022
本文介绍了两个新的数据集,分别为三维表示和语言学表示,以提高手语识别领域的研究进展。
Jan, 2022
这篇论文研究了自然环境下手语的自动处理,包括手指拼写、手势识别和手语翻译,并提出了新的数据集、任务和方法。
Aug, 2023
介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。
该研究介绍了解决手语识别数据稀缺的方法,利用自动化技术对英国手语视频进行数据自动提取并训练出状态良好的手语识别模型,该方法对于其他手语语种和基准测试也具有很好的预训练效果,并提供了新的数据集可用于手语识别和位置检测。
Jul, 2020