Jan, 2024

对大型多模态模型进行常见冲突的基准测试

TL;DR填补大型多模型(LMMs)评估中的不足,通过研究其输出在常见破坏情况下的自一致性,调查文本、图像和语音之间的跨模态交互,创建了一个综合性基准 MMCbench,评估了 100 多个受欢迎的 LMMs(共 150 个模型检查点),此全面评估对于实际部署至关重要,并有助于更好地了解顶尖 LMMs 的可靠性。