GPT4Vis:GPT-4 能为零样本视觉识别做什么?
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制,但通过少样本提示可以提高其性能;此外,在视频和热力等与图像类似的任务上表现出了非常好的性能。
Oct, 2023
我们研究了在点云中分类物体类别的挑战,通过使用 GPT-4 Vision(GPT-4V)的先进生成能力,我们的方法能够处理复杂的 3D 数据,在不改变底层模型架构的情况下实现了零样本识别能力,并通过系统策略进行点云图像可视化,提高了 GPT-4V 的效率。实验证明了我们方法在各种情景下的优越性,设定了零样本点云分类的新基准。
Jan, 2024
GPT-4V quantitatively evaluates its capabilities in multimodal emotion understanding, showcasing impressive results and establishing a zero-shot benchmark for future research.
Dec, 2023
使用 GPT-4V 模型进行多模态异态检测任务,包括图像、视频、点云和时间序列数据,在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中,通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中,GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式,从而能够准确区分正常和异常实例,展现出潜在的通用异态检测能力,为异态检测开辟了新的方法。
Nov, 2023
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023
使用大型语言模型(LLMs)作为一种经济的、无需参考的方法来评估科学图的标题,通过与人类学术专家评估和其他模型评估相比较,GPT-4 在评估中表现出色,甚至超过了计算机科学与信息学本科生的评估结果。
Oct, 2023
我们在 3D VQA 基准测试中评估了 GPT-4 Vision 和 GPT-4 等基础模型的零样本性能,发现没有任何微调的 GPT-based agents 在封闭词汇环境中表现与传统建模方法相当,我们还通过与以前的基准测试进行初步比较,希望为改进多模态 3D 基准测试的努力提供信息。
May, 2024
GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.
Nov, 2023
我们展示了如何使用 GPT-4 生成视觉描述性文本,并说明如何将其用于适应 CLIP 进行下游任务。与 CLIP 的默认提示相比,在专门的细粒度数据集上,我们在 0-shot 传输准确性方面取得了显著的改进。我们还设计了一个简单的 few-shot 适配器,学习选择最佳的句子来构建具有优越性能的可推广分类器。
Jul, 2023