Jul, 2024

SignCLIP:对比学习连接文字和手语

TL;DRSignCLIP通过重新利用CLIP将口语文本和手语视频投影到相同的空间中,用于学习大规模、多语言视频文本对中有用的视觉表示,旨在处理手语。SignCLIP在Spreadthesign上进行预训练,通过不同的下游数据集评估其性能,具有显著的文本-视频/视频-文本检索准确性,并在一些无关的任务(如孤立手语识别)上表现出竞争力。研究分析了口语文本和手语姿势形成的潜在空间,得出了额外的语言洞见。