Mar, 2024

根据要求进行设计:利用视觉问答进行多模态预训练

TL;DR我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉 - 语言差距,实现了模态对齐。在四个下游任务(报告生成、分类、分割和检测)的五个数据集上,广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。