Oct, 2024
MMIE:大型视觉-语言模型的多模态交错理解基准
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large
Vision-Language Models
TL;DR本研究针对现有多模态理解与生成评估不足的问题,提出了MMIE基准,涵盖20,000个精心策划的多模态查询,适用于大型视觉-语言模型的交错理解评估。通过引入新的自动评估指标,研究表明MMIE能有效促进多模态模型的发展,提高评估的准确性与可靠性。