BriefGPT.xyz
大模型
Ask
alpha
关键词
visual-textual contrastive learning
搜索结果 - 1
SignVTCL: 多模态连续手语识别的视觉 - 文本对比学习增强
利用多模态数据和语言模型的泛化能力,通过视觉 - 文本对比学习,提出了一种多模态连续手语识别框架 SignVTCL,它整合了视频、关键点和光流等多模态数据,训练了统一的视觉骨干并获得更强大的视觉表示,同时通过视觉 - 文本对齐方法在词汇和句
→
PDF
5 months ago
Prev
Next