BriefGPT.xyz
大模型
Ask
alpha
关键词
language and vision modalities
搜索结果 - 1
语言模型中的多模态思维链推理
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准
→
PDF
a year ago
Prev
Next