BriefGPT.xyz
Ask
alpha
关键词
favor learning framework
搜索结果 - 1
多模态大型语言模型的细粒度音频视觉联合表示
通过提出细粒度的音视频联合表示学习框架 (FAVOR),同时感知音频和视觉输入流中的语音、音频事件以及图像或视频,利用因果关注模块增强音视频帧之间的因果关系捕捉,在音频、语音和图像任务上取得了有竞争力的单模态性能,并在需要细粒度信息或时间因
→
PDF
9 months ago
Prev
Next