IQAGPT:基于视觉语言和 ChatGPT 模型的图像质量评估
本文介绍了一种可伸缩的 Language-Vision GPT(LV-GPT)模型,它将 GPT2 模型扩展到包括视觉输入(图像),以改进机器人手术中的视觉问题回答(VQA)任务,该模型在内窥镜视觉挑战机器人场景分割 2018、CholecTriplet2021 和全面外科场景数据集等三个公开数据集上的表现优于其他现有的 VQA 模型。
Apr, 2023
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源 GPT-4V 能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
Mar, 2024
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
提出了一种新颖的预训练框架,通过从通用视觉语言模型中选择性提取与图像质量相关的知识,并利用大型数据集的可扩展性,构建了一种适用于图像质量评估的通用表示。同时我们的方法在多个数据集上取得了最先进的性能,并展现了显著的泛化能力。
Jun, 2024
我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估,实验充分评估了 GPT-4V 在使用包括 11 种模态(如显微镜、皮肤镜、X 射线、CT 等)和十五种感兴趣的对象(如脑、肝脏、肺等)的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明,目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外,我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征,突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。
Oct, 2023
通过提出一种新颖的评估框架,判断视觉语言模型在生成基于 CT 的异常的准确摘要方面的能力,从而为辅助放射科医师减轻负担,并指导未来该领域的发展。
Mar, 2024
基于 Depicted Image Quality Assessment in the Wild (DepictQA-Wild) 方法构建了一个多功能的图像质量评估任务范式,包括评估和比较任务,从而构建了一个全面、大规模且高质量的数据集 DQ-495K,结果显示 DepictQA-Wild 在失真识别、即时评分和推理任务中明显优于传统基于分数的方法、之前的基于 Vision Language Models 的图像质量评估模型和专有的 GPT-4V。
May, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
该文章介绍了一种基于多模式提示的创新图像质量评估方法,通过精心设计的提示,从视觉和语言数据中挖掘增量语义信息,在不同数据集上展现出竞争性能,达到了鲁棒性和准确性的提升。
Apr, 2024
通过使用 PubMedVision 数据集,我们对医学图像和文本进行了精炼和重构,从而改善了当前 MLLM 的医学多模态能力,并在医学多模态场景中展现了卓越的性能。
Jun, 2024