Apr, 2024

改进的图像模型在连续手语识别中的应用

TL;DR通过采用 CLIP 作为视觉主干骨架,在固定参数的同时引入一组可学习模块,AdaptSign 能够高效地适应连续手语识别任务,并在包括 PHOENIX14、PHOENIX14-T、CSL-Daily 和 CSL 等不同基准测试中展现出卓越性能。可视化结果显示,AdaptSign 能够动态地关注手语视频中信息丰富的空间区域和跨帧轨迹。