BriefGPT.xyz
Ask
alpha
关键词
multimodal fusion modules
搜索结果 - 2
利用指导对比解码减轻大型视觉语言模型中的幻觉
大规模视觉 - 语言模型(LVLMs)在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而,它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响,生成的文本不准确地表示了视觉内容。为解决这个问题,本文引入了 Instructio
→
PDF
3 months ago
重构 TMSC:面向目标的多模态情感分类的实证研究
研究了目标导向的多模态情感分类中当前的性能瓶颈问题,通过实证评估和深入分析数据集,揭示了当前多模态情感分类系统主要依赖文本模态,提出了关于模型设计和数据集构建的几个方向。
PDF
9 months ago
Prev
Next