Jun, 2024

M3T: 多模态医疗转换器 连接临床背景与视觉洞察 用于视网膜图像医学描述生成

TL;DR提出了一种集成视觉表示和诊断关键词的新型深度学习架构 (Multi-Modal Medical Transformer, M3T),用于眼底图像的生成精确和连贯的医学描述。在 DeepEyeNet 数据集上的实验研究验证了 M3T 在满足眼科医生标准方面的成功,相比最佳基线模型,BLEU@4 有了显著的 13.5% 改进。