CVPRJan, 2023

利用时间结构进行生物医学视觉语言处理的学习

TL;DR本文提出一种名为 BioViL-T 的方法,使用了了同时训练和微调过程中的先前图像和报告,通过 CNN-Transformer 混合多图像编码器与文本模型协同训练,获得了最先进的性能,在单图像和多图像设置下实现了进展分类,短语接地和报告生成,并在疾病分类和句子相似性任务上持续提供改进,并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。