PathMMU: 一个用于理解和推理病理学的大规模多模态专业水平基准
本文提出了PathAsst,一种生成式AI助手,利用了ChatGPT/GPT-4和Vicuna-13B语言模型与CLIP视觉编码器,对142K高质量病理图像文本对进行了训练。结果表明,利用这种AI模型可以改善病理诊断和治疗过程。
May, 2023
通过引入可训练的类别提示和病理编码器,本研究将Segment Anything Model(SAM)适应于数字病理学中的语义分割任务,进一步通过增加病理基础模型提高了SAM-Path在数字病理学中的语义分割能力,实验证明在两个公共病理学数据集上,可训练类别提示的微调方案在Dice得分上超过手动提示和后处理的SAM27.52%,在IOU得分上超过71.63%,而增加病理基础模型相对提升Dice得分5.07%至5.12%,IOU得分4.50%至8.48%。
Jul, 2023
PathChat是一种通用的、视觉-语言人工智能助理,经过预训练的视觉编码器与预先训练的大规模语言模型相结合,可用于病理学的教育、研究和临床决策。
Dec, 2023
CMMMU是一个新的中国大规模多学科多模态理解基准,旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现,并推动下一代LMMs的发展。
Jan, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态LLM评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以GPT-4-Vision-Preview为LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有84%的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于GPT-4-Vision-Preview,还可应用于评估其他LLMs的准确性和实用性,以进一步优化其应用。
Jan, 2024
为解决基于预训练的病理基础模型到下游任务的适应性问题,提出了PathoTune,一种通过多模态提示调整将病理学或甚至视觉基础模型高效适应病理学任务的框架。在多个数据集的补丁级和WSI级别上,结果表明它的性能优于单模态提示调整方法,并且较简单的线性探测下成效更好。
Mar, 2024
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像-文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024
本研究解决了病理诊断中的多模态模型训练与应用之间的差距,尤其是在高质量训练数据集匮乏的背景下。通过针对约45,000个病例的数据集进行调优,我们提升了多模态大模型在图像描述和分类任务上的性能。研究表明,调优后的模型在应对典型的病理问题方面表现出色,期待能为医学和研究社区提供有价值的工具。
Aug, 2024
本研究解决了现有病理图像理解模型缺乏领域专用性的难题,提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法,研究发现PA-LLaVA在多模态模型中表现出最佳性能,具有推动计算病理学研究的潜力。
Aug, 2024
本研究解决了当前病理基础模型在外部队列和临床相关任务中独立评估不足的问题。我们基准测试了十种组织病理基础模型在多个癌症患者的样本上的表现,发现CONCH模型在42%的任务中表现最佳,而融合多个互补基础模型在66%的任务中优于单一模型。研究结果强调数据多样性在模型性能提升中的重要性。
Aug, 2024