Sep, 2024

基于复杂环境的中文连续手语数据集

TL;DR当前的连续手语识别研究面临的瓶颈在于大多数公开数据集局限于实验室环境或电视节目录制,缺乏真实场景的多样性和复杂性。为了解决这一问题,本文构建了一个基于复杂环境的中文连续手语数据集(CE-CSL),涵盖了5,988个来自日常生活场景的视频片段,并且提出了一种新的时间-频率网络(TFNet)模型,显著提高了在复杂背景下的手语识别性能。