AAAIMar, 2023

在 CLIP 中融合音频信息进行多模态处理

TL;DR本文研究了视觉 - 语言 - 音频多模态处理技术,提出了基于对比学习思想的 CLIP4VLA 模型,并在视频检索和视频字幕生成等多个任务中得到了最优结果。