Sep, 2024

提高大型语言模型的高级视觉推理能力

TL;DR本研究解决了传统视觉语言模型在复杂视觉推理场景中的表现不足的问题。我们提出了复杂视觉推理大型语言模型(CVR-LLM),通过迭代自我精炼循环生成详细的上下文感知描述,并利用大型语言模型的文本知识进行准确预测,显著提升了推理能力。研究结果表明,CVR-LLM在多项复杂视觉推理任务上达到目前的最佳性能,具有重要的应用潜力。