Jan, 2025

苏格拉底式提问:学习在真实环境中自我引导多模态推理

TL;DR本研究解决了复杂视觉推理中的主要挑战,即如何有机结合链式思维和视觉指令调优的方法。通过提出一种创新的多轮训练和推理框架,名为苏格拉底式提问(SQ),该方法指引多模态大型语言模型关注与目标问题相关的视觉线索,成功减少了幻觉现象并提高了模型在复杂视觉推理及问答任务中的表现,从而推动了未来相关研究的发展。