Oct, 2024

SlideChat:一种用于全切片病理图像理解的大型视觉-语言助手

TL;DR本研究针对现有多模态大型语言模型在全切片病理分析中缺乏整体上下文理解的问题,提出了SlideChat,这是一种能够理解千亿像素全切片图像的视觉-语言助手。通过创建包含4.2K个WSI标题和176K个VQA对的SlideInstruction数据集,SlideChat在多个临床场景中展示了卓越的多模态对话能力,超越了现有多模态模型,具有85%的主流任务性能提升潜力。