CVPRAug, 2020

How2Sign: 一个大规模多模态连续美国手语数据集

TL;DR介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。