BriefGPT.xyz
Ask
alpha
关键词
audio-visual scenarios
搜索结果 - 1
CAT: 增强多模态大型语言模型以回答动态音频 - 视觉场景中的问题
本研究关注于回答由丰富而复杂的动态视听组件组成的场景中的问题,引入了 CAT 来增强 Multimodal Large Language Models(MLLMs)在这些场景中的应用,CAT 通过聚合问题相关线索、训练混合多模态数据集以及优
→
PDF
4 months ago
Prev
Next