PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

Aug, 2024

PA-LLaVA：用于人类病理图像理解的大型语言-视觉助手

PA-LLaVA: A Large Language-Vision Assistant for Human Pathology Image Understanding

Dawei Dai, Yuanhui Zhang, Long Xu, Qianlan Yang, Xiaojing Shen...

TL;DR本研究解决了现有病理图像理解模型缺乏领域专用性的难题，提出了一种专为病理图像理解开发的大型语言-视觉助手PA-LLaVA。通过构建清洗过的病理图像-文本数据集并采用两阶段学习方法，研究发现PA-LLaVA在多模态模型中表现出最佳性能，具有推动计算病理学研究的潜力。

Abstract

The previous advancements in Pathology Image Understanding primarily involved developing models tailored to specific tasks. Recent studies has demonstrated that the large →

发现论文，激发创造

PathAsst：基于生成式基础人工智能的病理学辅助系统的重新定义

本文提出了PathAsst，一种生成式AI助手，利用了ChatGPT/GPT-4和Vicuna-13B语言模型与CLIP视觉编码器，对142K高质量病理图像文本对进行了训练。结果表明，利用这种AI模型可以改善病理诊断和治疗过程。

May, 2023

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

基于多模态视觉语言的人类病理学基础人工智能助手

PathChat是一种通用的、视觉-语言人工智能助理，经过预训练的视觉编码器与预先训练的大规模语言模型相结合，可用于病理学的教育、研究和临床决策。

Dec, 2023

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

增强病理检测的疾病描述分解：一种多方面的视觉语言匹配框架

通过咨询大型语言模型和医学专家，我们提出了一种新颖的VLP框架，将疾病描述分解为基本要素，利用对病理学可视表现的先前知识。通过整合Transformer模块，我们的方法将输入图像与疾病的多个要素进行对齐，生成以要素为中心的图像表示。通过整合每个要素的匹配，我们改善了图像与其相关疾病之间的兼容性。此外，我们还提出了一个面向要素的双头Transformer，用于处理已知和未知疾病，以优化综合检测效果。在七个数据集上进行实验证明，我们的方法在已见类别和新颖类别的AUC得分上分别超过最近的方法8.07%和11.23%。

Mar, 2024

加强知识的视觉语言预训练在计算病理学中的应用

本文研究了计算病理学的视觉表征学习问题，通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法，通过语言模型将病理特定知识投射到潜在嵌入空间中，并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性，在不同的下游任务中，包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分，都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。

Apr, 2024

PathGen-1.6M: 160万病理图像-文本对的多机器人协作生成

利用大规模全扫描图像数据集和多模型协作的方法，生成高质量的图像-文本对，为病理学领域的 Vision Language Models 进行训练和指导调优，从而显著提高其分析病理图像的能力，并为下一代通用病理模型铺平了道路。

Jun, 2024

SlideChat：一种用于全切片病理图像理解的大型视觉-语言助手

本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题，提出了SlideChat，这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集，SlideChat在多个临床场景中展示了卓越的多模态对话能力，超越了现有多模态模型，具有85%的主流任务性能提升潜力。

Oct, 2024

超声波大型中文语言与视觉助手 LLaVA-Ultra

本研究解决了现有视觉语言模型在医学视觉问答中特别是中文超声波领域的理解不足的问题。通过引入精细化的适应性视觉语言模型架构和数据冗余处理方法，我们显著提升了对医学视觉语义的识别能力。研究表明，LLaVA-Ultra在三种医学视觉问答数据集中超越了现有最先进模型，展现了良好的效果和适应性。

Oct, 2024

R-LLaVA：通过视觉关注区域提升医疗视觉问答理解

该研究解决了现有医疗视觉问答（Med-VQA）方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA，通过将简单的医学注释直接整合到图像中，增强了模型对生物医学问题的理解。实验证明，R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术，并引入了一种新的多项选择医学视觉理解数据集，进一步验证了关注视觉区域的重要性。

Oct, 2024