关键词multimodal encoder
搜索结果 - 7
- 对齐之后融合:通过多模态编码器来提高人脸 - 声音相关性学习PDF3 months ago
- MPE4G:用于共语手势生成的多模态预训练编码器PDFa year ago
- ACL思考与观察的结合用于基于外部知识的视觉问答PDFa year ago
- LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模PDF2 years ago
- ECCV使用自然语言引导的开放域图像生成和编辑PDF2 years ago
- 在融合之前对齐:使用动量蒸馏进行视觉和语言表示学习PDF3 years ago
- 深度多模态子空间聚类网络PDF6 years ago
Prev
Next