Apr, 2025
评估放射学中的视觉语言模型(VLMs):全面分析
Evaluating Vision Language Models (VLMs) for Radiology: A Comprehensive
Analysis
TL;DR本研究解决了放射学中特征捕获的不足,评估了三种视觉语言基础模型(RAD-DINO、CheXagent 和 BiomedCLIP)在胸部X光片的气胸和心脏肥大任务中的表现。研究发现,自监督的RAD-DINO在分割任务上表现突出,而文本监督的CheXagent在分类上更优,结合全局和局部特征的自定义分割模型显著提高了所有基础模型的表现,提供了选择基础模型的实用指导。