BriefGPT.xyz
Ask
alpha
关键词
music-avqa-r
搜索结果 - 1
听、看、回答:克服音频视觉问题回答中的偏差
音频 - 视觉问答(AVQA)是一个复杂的多模态推理任务,要求智能系统基于音频 - 视频输入对准确地回答自然语言查询。然而,现有的 AVQA 方法容易过度学习数据集偏差,导致鲁棒性差。我们提出了一个新的数据集(MUSIC-AVQA-R),并
→
PDF
3 months ago
Prev
Next