PA-LLaVA:用于人类病理图像理解的大型语言-视觉助手
本文提出了PathAsst,一种生成式AI助手,利用了ChatGPT/GPT-4和Vicuna-13B语言模型与CLIP视觉编码器,对142K高质量病理图像文本对进行了训练。结果表明,利用这种AI模型可以改善病理诊断和治疗过程。
May, 2023
本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med),该助手能回答有关生物医学图像的开放性研究问题,并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。
Jun, 2023
PathChat是一种通用的、视觉-语言人工智能助理,经过预训练的视觉编码器与预先训练的大规模语言模型相结合,可用于病理学的教育、研究和临床决策。
Dec, 2023
通过咨询大型语言模型和医学专家,我们提出了一种新颖的VLP框架,将疾病描述分解为基本要素,利用对病理学可视表现的先前知识。通过整合Transformer模块,我们的方法将输入图像与疾病的多个要素进行对齐,生成以要素为中心的图像表示。通过整合每个要素的匹配,我们改善了图像与其相关疾病之间的兼容性。此外,我们还提出了一个面向要素的双头Transformer,用于处理已知和未知疾病,以优化综合检测效果。在七个数据集上进行实验证明,我们的方法在已见类别和新颖类别的AUC得分上分别超过最近的方法8.07%和11.23%。
Mar, 2024
本文研究了计算病理学的视觉表征学习问题,通过利用来自公共资源的大规模图像-文本对和病理学中的领域特定知识。我们首次构建了包含50,470个有信息量的属性、涵盖32种人体组织下的4,718种需要病理诊断的疾病的病理知识树。我们开发了一种基于知识增强的视觉-语言预训练方法,通过语言模型将病理特定知识投射到潜在嵌入空间中,并用于引导视觉表征学习。我们进行了全面的实验证明了我们提出的组件的有效性,在不同的下游任务中,包括跨模态检索、病理图块上的零样本分类以及整个切片图像上的零样本肿瘤亚型划分,都取得了显著的性能提高。所有代码、模型和病理知识树将提供给研究社群。
Apr, 2024
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像-文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024
本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题,提出了SlideChat,这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集,SlideChat在多个临床场景中展示了卓越的多模态对话能力,超越了现有多模态模型,具有85%的主流任务性能提升潜力。
Oct, 2024
本研究解决了现有视觉语言模型在医学视觉问答中特别是中文超声波领域的理解不足的问题。通过引入精细化的适应性视觉语言模型架构和数据冗余处理方法,我们显著提升了对医学视觉语义的识别能力。研究表明,LLaVA-Ultra在三种医学视觉问答数据集中超越了现有最先进模型,展现了良好的效果和适应性。
Oct, 2024
该研究解决了现有医疗视觉问答(Med-VQA)方法未能充分利用图像中重要视觉区域信息的不足。本文提出了R-LLaVA,通过将简单的医学注释直接整合到图像中,增强了模型对生物医学问题的理解。实验证明,R-LLaVA在四个标准Med-VQA数据集上优于现有最先进技术,并引入了一种新的多项选择医学视觉理解数据集,进一步验证了关注视觉区域的重要性。
Oct, 2024