Nov, 2024

文本到图像生成的自动评估:任务分解框架、蒸馏训练及元评估基准

TL;DR本研究解决了文本到图像生成中自动质量评估的需求,特别针对现有方法依赖昂贵的多模态大型语言模型所面临的可扩展性问题。研究提出了一种基于任务分解的新框架,并设计了创新的训练策略,将GPT-4o的评估能力蒸馏至7B的开源多模态语言模型MiniCPM-V-2.6,实验证明其在与人类判断的一致性上显著优于现有评估方法,具有重要的应用潜力。