Jun, 2023

面向生成视觉问答的多模态提示检索

TL;DR提出了一种结合多模态提示检索和生成模型的方法,该方法可以在医学领域的视觉问题回答任务中比非检索方法提高高达30%的精度。