BosphorusSign22k 手语识别数据集
本研究的目的是为了解决计算手语研究中缺少大规模数据集的问题,并且分享了六个数据集和相关工具的收集过程以及用于推动未来研究的基准翻译结果。
May, 2021
本文介绍了 BBC-Oxford British Sign Language (BOBSL) 数据集,这是一个大规模的英国手语 (BSL) 视频收集。我们描述了数据集的动机和可用注释的统计数据,通过实验提供了签名识别、手语对齐和手语翻译任务的基线,讨论了数据的优势和局限性以及在手语技术方面修正偏见和潜在应用。
Nov, 2021
本文介绍了一种新的大规模多模式土耳其手语数据集 (AUTSL),为性能评估提供了基准模型;使用卷积神经网络提取特征、使用单向和双向 LSTM 模型表征时间信息,以及结合特征池化模块和时间注意力来提高模型性能。在 AUTSL 随机训练和测试集上,模型的表现达到了 95.95% 的准确度,并在提出的用户独立基准数据集上取得了 62.02% 的最佳基线模型效果。
Aug, 2020
本文提出了使用众包平台生成的俄罗斯手语视频数据集 Slovo,其中包含 1,000 个类别的 RSL 手势,由 194 名使用者接收,同时提供了从数据收集到视频标注的整个数据集创建流程和几个利用该数据集所训练和评估的神经网络,旨在展现其教学能力。
May, 2023
本文提出了一个包括 25,000 个有注释视频的美国手语数据集,通过 I3D 架构的应用,实现了对 1000 个手势的无限制语境下的识别。
Dec, 2018
介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。
Aug, 2020
自动手语翻译是一个具有巨大社会影响的研究领域,通过端到端手语翻译可以促进听力有困难的人与听力正常的人之间的交流,从而提高他们的社交生活和参与社会生活的机会。针对现有资源有限的问题,研究者构建了一个新的希腊手语视频翻译数据集,包含 29653 个视频翻译对,基于希腊小学的官方课程,该数据集覆盖了广泛的主题,并使用该数据集训练了最新的基于 Transformer 的方法,结果表明该数据集在提供可用性和实际价值方面具有潜力推动 SLT 研究。
Oct, 2023
这项研究引入了连续的教育土耳其手语(E-TSL)数据集,收集自第 5、6 和 8 年级的在线土耳其语课程。该数据集包含 1,410 个视频,总计近 24 小时,包括来自 11 位手语演讲者的表演。我们开发了两种基准模型来解决这些挑战:姿势到文本转换器(P2T-T)和基于图神经网络的 Transformer(GNN-T)模型。GNN-T 模型在 BLEU-1 得分上达到 19.13%,BLEU-4 得分为 3.28%,与现有基准相比提出了显著挑战。P2T-T 模型在 BLEU 得分方面略有下降,但在 ROUGE-L 得分方面达到了更高的 22.09%。此外,我们使用着名的 PHOENIX-Weather 2014T 数据集对我们的方法进行了验证。
May, 2024
发布了迄今最大的孤立手语识别数据集 ASL Citizen,该数据集包含 83,912 个视频,由 52 名手语用户在各种环境中拍摄了 2,731 个不同的手势,并提出应将该数据集用于手语字典检索,使用我们数据集训练监督学习分类器在手语字典检索方面极大地提高了性能。
Apr, 2023