BriefGPT.xyz
Ask
alpha
关键词
multimodal compositional reasoning
搜索结果 - 3
CREMA: 多模态组合视频推理的高效模块适应与融合
本文提出了一种高效的模态融合框架 CREMA,用于将任何新的模态注入视频推理,通过使用现有的预训练模型增强给定视频的多个信息模态,然后引入一个与每个可访问模态相关的多个参数高效模块的查询转换器,将不同的数据类型整合到响应产生的 LLM 令牌
→
PDF
5 months ago
增强视觉语言模型的多模态组合推理能力:使用生成式负样本挖掘
通过挖掘负样本并生成具有挑战性的负样本,在两种模态(图像和文本)中显著提高大规模视觉语言模型在多模态组合推理任务中的性能。
PDF
8 months ago
大型生成视觉语言模型的构成性研究
使用多模态指导调整的大型语言模型和生成型视觉语言模型,通过评估指标和基准测试提供了第一个无偏向性的复合性测评基准,从而开创了未来研究的方向。
PDF
a year ago
Prev
Next