提高大型语言模型的高级视觉推理能力
本文提出了一种名为TReE的方法,用于在零样本场景中将大型语言模型(LLMs)的推理能力转移给视觉语言模型(VLM),包含观察、思考和重新思考三个阶段。
May, 2023
通过引入视觉语义,将大规模的视觉-语言模型 (LVLMs) 融合到多模态对话中,Ziya-VL 在英语和汉语多模态场景中展现出了具有竞争力的图片-文本生成和理解能力。
Oct, 2023
通过协调多个视觉-语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉-语言模型,从而实现令人印象深刻的视觉推理能力。
Oct, 2023
多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。
Nov, 2023
通过对一些最先进的VLM(Visual Language Model)进行分析,我们发现它们在执行ICL(In-Context Learning)指令时存在一定的不足。为了验证这个猜想,我们提出了一种简单但令人惊讶地有效的策略,通过扩展一个常见的VLM对齐框架,实现ICL支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解,从而显著提升了21.03%的ICL表现(平均11.3%),超过了最强VLM基线和多种ICL基准,并为VLM的ICL评估贡献了新的基准,并讨论了它们相对于现有技术的优势。
Mar, 2024
该研究介绍了一个全面的多模态上下文学习基准测试VL-ICL Bench,评估了先进的视觉大语言模型在这个基准测试套件上的能力,揭示了它们的各种优势和弱点,并表明即使是最先进的模型,如GPT-4,也会在这些任务中面临挑战。
Mar, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过引入多图像关系基准(MIRB),我们评估了视觉语言模型(VLMs)在比较、分析和推理多个图像时的能力,并发现开源VLMs在单图像任务中接近GPT-4V的性能,但在多图像推理任务中存在显著的性能差距。我们的发现表明,即使是最先进的GPT-4V模型在我们的基准测试中也存在困难,强调了该领域进一步研究和开发的必要性。我们相信我们的MIRB可以作为开发下一代多模态模型的测试平台。
Jun, 2024
大型语言模型和视觉-语言模型在广泛的任务和领域表现出了显著的优异性能,但空间理解和推理(人类认知的基本组成部分)仍然未得到充分利用。通过开发多方面的空间推理基准,如关系理解、导航和计数,我们对具有竞争力的语言模型和视觉-语言模型进行全面评估。我们的发现揭示了几个在文献中被忽视的反常见观点:(1)空间推理带来了重大挑战,竞争模型可能不如随机猜测;(2)尽管有额外的视觉输入,视觉-语言模型通常表现不如纯语言模型;(3)当文本和视觉信息都可用时,如果提供足够的文本线索,多模态语言模型对视觉信息的依赖程度降低。此外,我们证明了利用视觉和文本之间的冗余可以显著提高模型性能。我们希望我们的研究能够为改进空间智能并进一步缩小与人类智能之间的差距的多模态模型的发展提供启示。
Jun, 2024
本研究解决了视觉语言模型在视觉推理能力上与世界知识间的混淆,系统地评估了其零-shot视觉推理能力。通过使用合成数据集,该研究发现文本场景描述在视觉推理中优于视觉嵌入,并指出在大型模型中,链式推理提示能提升推理效果,反映了大型语言模型在视觉推理中的潜力与局限。
Aug, 2024