Jan, 2024

SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强

TL;DR利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句级别确保视觉特征与手语之间的精确对应,实验结果表明,SignVTCL 在三个数据集上取得了领先于之前方法的最新成果。