Apr, 2025
基于元实体驱动的三元组挖掘用于对齐医学视觉-语言模型
Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language
Models
TL;DR本研究解决了现有医学视觉-语言模型在图像和文本表示对齐方面的不足,尤其是在处理胸部X光影像时。我们提出的MedTrim方法通过元实体信息和多模态三元组学习,优化了图像与文本的对齐,有效保留了临床上重要的细微变量。实验结果显示,MedTrim在下游检索和分类任务中优于最先进的对齐方法,具有显著的提升效果。