Oct, 2024

文本字符串中的视觉感知

TL;DR本研究解决了大型语言模型和多模态大型语言模型在视觉理解中的能力差距,特别是在ASCII艺术的识别任务上。通过构建评价数据集并进行模型性能基准测试,发现虽然人类准确率接近100%,但当前最先进的模型平均准确率仅约为30%。研究强调了改进多模态信息融合训练技术的必要性,以提高模型的整体表现。