Apr, 2023

ELVIS: 通过 Intra-modal 相似度增强视觉语言预训练中的局部性能力

TL;DRELVIS 是一种局部感知的 Visual Language Pre-training 方法,旨在增强自然语言处理对放射学文本和 X 光报告中位置指示的理解能力,通过在无需昂贵注释的情况下,利用大量的匹配图像和文本对来增强局部性,可以更好地定位异常,提高细粒度诊断的准确性。