How2Sign: 一个大规模多模态连续美国手语数据集

CVPRAug, 2020

How2Sign: 一个大规模多模态连续美国手语数据集

How2Sign: A Large-scale Multimodal Dataset for Continuous American Sign Language

Amanda Duarte, Shruti Palaskar, Lucas Ventura, Deepti Ghadiyaram, Kenneth DeHaan...

TL;DR介绍了一个包含 80 多个小时的美国国家手语（ASL）视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign，并通过手语者的实验表明利用这个数据集合成的视频能够被理解，同时指出计算机视觉领域需要解决的挑战。

Abstract

One of the factors that have hindered progress in the areas of sign language recognition, translation, and production is the absence of large annotated datasets. Towards this end, we introduce How2Sign, a multimodal and multiview continuous American Sign Language (ASL) dataset, consisting of a parallel corpus of more than 80 hours of sign language videos and

sign language recognition sign language translation multimodal dataset pose estimation computer vision

发现论文，激发创造

How2：一个大规模的多模态语言理解数据集

本研究介绍了 How2，它是一个多模态的指导视频集合，包含英文字幕和社群翻译的葡萄牙语。我们还提出了包括机器翻译、自动语音识别、口语翻译和多模态摘要在内的一些序列到序列的基础模型。通过提供多个多模态自然语言任务的数据和代码，我们希望引导更多关于多模态与语言处理的研究，以获得更加深入的了解。

Nov, 2018

MS-ASL：用于理解美国手语的大规模数据集和基准

本文提出了一个包括 25,000 个有注释视频的美国手语数据集，通过 I3D 架构的应用，实现了对 1000 个手势的无限制语境下的识别。

Dec, 2018

Content4All 开放研究手语翻译数据集

本研究的目的是为了解决计算手语研究中缺少大规模数据集的问题，并且分享了六个数据集和相关工具的收集过程以及用于推动未来研究的基准翻译结果。

May, 2021

SDW-ASL: 生成大规模连续美式手语数据集的动态系统

提出了一种连续手语数据集生成系统，在发布了包含 30k 个句子、416k 个单词、总计 104 小时的 18k 单词词汇量的最大连续手语数据集时，该系统有助于总体 ASL 处理和特别有助于 ASL 生成。

Oct, 2022

YouTube-ASL: 一个大规模、开放领域的美国手语 - 英语平行语料库

本论文通过 Youtube-ASL，一个大规模的开放领域美国手语（ASL）视频语料库的介绍及研究，证明了手语机器学习的瓶颈在于数据问题，并使用 How2Sign 进行了模型基线培训及评估，并获得了新的微调技术的艺术的最高状态和首次报道的零 - shot 结果。

Jun, 2023

基于在线视频学习的开放领域手语翻译

本文介绍了 OpenASL 数据集，包含超过 200 名大规模美国手语（ASL）- 英语翻译中对手语搜索作为预训练工作的技术和融合口型和手势特征等技术，这些技术相比基线模型产生了一致的显著提高。

May, 2022

连续手语视频中的主题检测

本研究介绍了手语主题检测的新型任务，基于大规模视频数据集 How2Sign，提供该任务的强基线以及常用视觉特征的比较。

Sep, 2022

视频中基于单词的深度手语识别：一个新的大规模数据集和方法比较

本文介绍了一个新的大规模美国手语单词语义（WLASL）数据集，并实现了基于外观和人体姿态的 2 个模型，以及提出了一种新的基于姿态的时态图卷积网络（Pose-TGCN）方法，同时模拟人体姿态轨迹中的空间和时间依赖关系，为手语识别研究提供了一个有价值的基准实验平台。

Oct, 2019

指令视频中的手语翻译

该研究使用 Transformer 和 I3D 视频特征对 How2Sign 数据集进行训练，并以降低的 BLEU 作为参考指标，获得了 8.03 的 BLEU 得分，提供了第一个开源实现，推进了自动手语翻译技术的发展。

Apr, 2023

SignAvatars：大规模 3D 手语整体运动数据集与基准

本文介绍了 SignAvatars 这个大规模的多提示 3D 手语运动数据集，旨在弥合听障个体之间的交流障碍；数据集涵盖包括隔离的手势和连贯的手势在内的 70,000 个视频，共计 8.34 百万帧，提供了自动化注释流水线以及 3D 手语的形态学注释，促进了 3D 手语识别和 3D 手语生成等任务的实施。

Oct, 2023