May, 2024

放射学报告生成的细粒度图像文本对齐器

TL;DR本文介绍了一种名为 Fine-grained Image-Text Aligner (FITA) 的新方法,用于构建图像和文本特征的精细对齐,包括图像特征细化器(IFR)、文本特征细化器(TFR)和对比对齐器(CA),通过利用显著性图来有效融合症状与相应的异常视觉区域,以及利用精心构造的三元组集进行训练,最终使用对比损失实现精确定位的图像和文本特征的对齐。结果表明,我们的方法在广泛使用的基准测试上超过了现有的方法。