multimodal benchmark | BriefGPT

关键词multimodal benchmark

搜索结果 - 4

DevBench：一个用于语言学习的多模态发展基准
通过构建模型以较少的、多模态自然数据进行训练，并将其与行为数据进行直接比较，我们介绍了 DevBench，一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中，模型在准确性和回应模式上与人类表现出差异。通过比较模
PDF20 days ago
GAOKAO-MM: 中国多模态模型评估的人类水平基准
提出了 GAOKAO-MM，这是一个基于中国高考的多模态基准，评估了 10 个大型视觉语言模型 (LVLMs)，发现它们的准确率都低于 50％，排名前三的是 GPT-4-Vison（48.1％），Qwen-VL-Plus（41.2％）和 G
PDF4 months ago
EMNLP阅读书籍很好，但驾车时不适合！关于非抗辩常识规范的视觉确定性推理
解读可废除文明规范的视觉基准下的常识法则对机器来说是一项挑战，并提出一种通过提取大型语言模型中的社会常识知识来改善模型与人类对齐的新方法。
PDF9 months ago
通过知识增强的多模态预训练实现医疗人工通用智能
提出了一种基于 Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR) 模型的医学人工通用智能模型，通过融合不同的基本医学知识，实现了对于医学预训练模型较好的跨模态对齐，形成了一种
PDFa year ago