IQAGPT：基于视觉语言和 ChatGPT 模型的图像质量评估

Dec, 2023

IQAGPT：基于视觉语言和 ChatGPT 模型的图像质量评估

IQAGPT: Image Quality Assessment with Vision-language and ChatGPT Models

Zhihao Chen, Bin Hu, Chuang Niu, Tao Chen, Yuxin Li...

TL;DR在医学成像中，本研究以 IQAGPT 为例，结合了图像质量说明的 VLM 和 ChatGPT，利用大型语言模型实现图像质量评估和生成文本报告。结果表明 IQAGPT 在图像质量评估方面表现优异，超过了 GPT-4、CLIP-IQA 和仅依赖图像的多任务分类和回归模型。

Abstract

large language models (LLMs), such as ChatGPT, have demonstrated impressive capabilities in various tasks and attracted an increasing interest as a natural language interface across many domains. Recently, large vision-language models (→

large language models image quality assessment vlms iqagpt medical imaging

发现论文，激发创造

SurgicalGPT: 外科视觉问答的端到端语言 - 视觉生成预训练模型

本文介绍了一种可伸缩的 Language-Vision GPT（LV-GPT）模型，它将 GPT2 模型扩展到包括视觉输入（图像），以改进机器人手术中的视觉问题回答（VQA）任务，该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。

Apr, 2023

多模态大型语言模型对图像质量评估的全面研究

通过对多模态大语言模型（MLLMs）在图像质量评估（IQA）中的应用进行综合系统的研究和探索，发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知，但在细粒度的质量变化（如颜色差异）和多图像的视觉质量比较等任务上较为薄弱。

Mar, 2024

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

CLIP 引导属性感知预训练用于可泛化图像质量评估

提出了一种新颖的预训练框架，通过从通用视觉语言模型中选择性提取与图像质量相关的知识，并利用大型数据集的可扩展性，构建了一种适用于图像质量评估的通用表示。同时我们的方法在多个数据集上取得了最先进的性能，并展现了显著的泛化能力。

Jun, 2024

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

使用 GPT-4 进行自动评估的基于视觉 LLM 预测的分解

通过提出一种新颖的评估框架，判断视觉语言模型在生成基于 CT 的异常的准确摘要方面的能力，从而为辅助放射科医师减轻负担，并指导未来该领域的发展。

Mar, 2024

野外环境下的图像描述性质量评估

基于 Depicted Image Quality Assessment in the Wild (DepictQA-Wild) 方法构建了一个多功能的图像质量评估任务范式，包括评估和比较任务，从而构建了一个全面、大规模且高质量的数据集 DQ-495K，结果显示 DepictQA-Wild 在失真识别、即时评分和推理任务中明显优于传统基于分数的方法、之前的基于 Vision Language Models 的图像质量评估模型和专有的 GPT-4V。

May, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

多模态提示学习的盲目图像质量评估

该文章介绍了一种基于多模式提示的创新图像质量评估方法，通过精心设计的提示，从视觉和语言数据中挖掘增量语义信息，在不同数据集上展现出竞争性能，达到了鲁棒性和准确性的提升。

Apr, 2024

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024