Mar, 2025
MindGYM:通过合成自我挑战问题提升视觉-语言模型
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging
Questions
TL;DR本文针对大型视觉-语言模型在获得强大可转移推理能力方面面临的挑战,提出了MindGYM框架。该框架通过合成自我挑战问题,在三个阶段中提高模型的推理能力,并在七个基准上表现出卓越的性能,显著提升了推理的深度和广度。此研究展示了自我挑战在精炼视觉-语言模型能力方面的可行性,同时减少了人力和资源的需求。