Feb, 2024

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

TL;DR最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力,如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试,用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程,并提出了高效的结构恢复注释 (ESRA) 方法,可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本,在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验,发现现有的 LLMs 性能仍受限制,但与 LMMs 相比,LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。