将GPT-4o置于考验中：对语言、视觉、语音和多模态熟练度的全面评估

Jun, 2024

将GPT-4o置于考验中：对语言、视觉、语音和多模态熟练度的全面评估

Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency

Sakib Shahriar, Brady Lund, Nishith Reddy Mannuru, Muhammad Arbab Arshad, Kadhim Hayawi...

TL;DRGPT-4o综合评估了大型语言模型（LLMs）在语言、视觉、语音和多模态能力方面的性能，结果显示GPT-4o在语言和推理能力的多个领域表现出高准确性和高效率，尤其在需要少样本学习的任务上表现出色，并在多模态任务方面相较于先前模型取得显著改进，但在处理复杂和模糊输入方面存在一定的变异性和限制，尤其在音频和视觉能力方面。该研究强调了需要更全面的基准和稳健的评估框架，包括定性评估以及错误分析，未来的工作应着重于扩展数据集，研究基于提示的评估，以及提升少样本学习技术以测试模型在实际场景中的适用性和性能。

Abstract

As large language models (LLMs) continue to advance, evaluating their comprehensive capabilities becomes significant for their application in various fields. This research study comprehensively evaluates the language, vision, speech, and →

发现论文，激发创造

MiniGPT-4: 借助先进的大型语言模型增强视觉-语言理解

本文介绍了 MiniGPT-4 模型，该模型利用像GPT-4这样的先进的大型语言模型（LLM）与视觉编码器对齐，可以生成详细的图像描述和从手写草图中创建网站等多重能力，采用对齐的图文数据集训练可以提高生成的可靠性和整体可用性。

Apr, 2023

GPT4Tools: 通过自我学习教授大型语言模型使用工具

本文提出了一种名为GPT4Tools的方法，利用自我指导生成指令遵循的数据集，并利用LoRA优化，使开源LLMs解决一系列视觉问题，如视觉理解和图像生成。经过广泛实验，表明该方法不仅显著提高了调用已知工具的准确性，而且还使得未知工具具有零-shot能力。

May, 2023

如何训练一款基于多模态输入的 GPT4 风格语言模型？

探讨大型语言模型的结构、训练数据、训练策略和不同指令对模型的影响，并且创建了一个既包括图像任务又包括视频任务的全面评估集，最终呈现了Lynx，该模型在保持最佳多模生成能力的同时，表现出最准确的多模态理解能力。

Jul, 2023

LMMs初探：与GPT-4V(ision)的初步探索

通过分析最新的模型GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现GPT-4V具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强LMMs以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

迷失在翻译中：当GPT-4V(ision)无法与文字心有灵犀。VLLMs及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了GPT-4V等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为“Vision Description Prompting”的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

GPT-4V（视觉）的早期评估

GPT-4V的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4V作为视觉语言任务的通用评估器

GPT-4V在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

评估 GPT-4 在巴西大学入学考试中的视觉能力

通过综合文本和视觉元素，对语言模型在入学考试上进行评估的综合框架表明GPT-4在处理复杂多学科问题方面具有最先进的能力，但数学问题仍然是这些模型的挑战。

Nov, 2023

Gemini 对 GPT-4V：基于定性案例的视觉-语言模型初步比较与结合

这篇论文对谷歌的Gemini和OpenAI的GPT-4V(ision)两个创新模型进行了深入的比较研究，重点关注它们在视觉理解能力、与人类交互、时间理解以及智能和情感商数等关键领域的表现，发现GPT-4V以精准简洁的回答著称，而Gemini在提供详细广泛回答和相关图像和链接方面表现出色。这些研究成果不仅揭示了Gemini和GPT-4V的比较优势，也突显了多模式基础模型领域的发展，为未来的进展铺平了道路。

Dec, 2023

M4U：评估大型多模态模型的多语言理解与推理能力

M4U是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集，通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs)，发现GPT-4o等领先的模型在M4U上的平均准确率仅为47.6%，而且这些模型在跨语言多模态问题上表现出显著的性能降低。

May, 2024