眼球注视导向的多模态对齐框架用于放射学
本文提出了一种新颖的多模态 DL 结构,结合医学图像和眼动数据用于检测胸部 X 射线异常,结果表明将眼动数据直接应用于 DL 结构并不能表现出优越的预测性能,在 DL 结构中应用人类生成的数据,比如眼动数据,需要更全面深入的研究。
Feb, 2023
本文中提出了一种新的注视引导的图神经网络(GazeGNN),用于对医学扫描进行疾病分类,该方法不需要将目光信息转换为视觉注意力图;该方法在公共胸部 X-ray 数据集上实验,相较于现有方法,本方法取得了最佳分类性能。
May, 2023
通过结合结构化患者数据和非结构化临床记录,我们提出了一种新颖的多模态深度神经网络框架,用于生成描述医学图像结果的胸部X射线检查报告,并通过引入条件交叉多头注意力模块来融合这些异构数据模态,弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比,实验证明通过使用附加模态可以显著改善结果,在ROUGE-L指标上达到了文献相关最高的性能。此外,我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性,但也强调需要更多的改进以捕捉细微的细节和临床背景。
Nov, 2023
通过眼动追踪作为替代文本报告的方法,我们可以 passively 收集放射科医师在阅读和诊断医学图像时的视觉关注和临床推理,从而在医学图像领域中改善对比度预训练的有效性。我们提出了医学对比度视线图像预训练(McGIP)作为对比度学习框架的即插即用模块,通过放射科医师的注视来指导对比度预训练,实验结果表明了 McGIP 的实用性,显示其在各种临床场景和应用中具有很高的潜力。
Dec, 2023
通过使用预训练模型在大规模图像-文本对上,集中于图像-文本对齐,推动了医学领域零样本学习的进展。然而,现有方法主要依赖于余弦相似度进行对齐,可能无法完全捕捉医学图像和报告之间复杂的关系。为了填补这一空白,我们引入了一种新的方法,称为交叉注意力对齐用于放射学零样本分类(CARZero)。我们的方法创新地利用交叉注意力机制处理图像和报告特征,创建一个更准确地反映医学语义中复杂关系的相似性表示。然后,将这个表示线性投影形成图像-文本相似性矩阵以进行跨模态对齐。此外,CARZero还将零样本学习中提示选择的关键作用纳入其中,采用基于大型语言模型的提示对齐策略。该策略将多样化的诊断表达规范化为统一格式,用于训练和推理阶段,克服了手动提示设计的挑战。我们的方法简单而有效,在包括长尾疾病分布数据集在内的五个官方胸部透视诊断测试集上展示了最先进的零样本分类性能,取得了显著的结果。这一成就归因于我们新的图像-文本对齐策略,有效地解决了医学图像和报告之间复杂的关系。
Feb, 2024
通过整合医生的眼动数据以及文本提示,利用视觉-语言模型(VLMs)来增强胸部X射线分析中的人机交互,从而提高计算机辅助诊断在医学图像任务中的准确性。
Apr, 2024
利用计算机视觉预测医学图像中的人眼注视路径,通过大型数据库生成热度图和眼动视频以协助综合分析,并与最先进的方法相比较其性能和普适性。
Jun, 2024
本研究针对医疗放射学报告中的上下文感知注视估计问题,提出了一种新颖的Gaze EstiMation (GEM)网络。该网络利用放射科医生的眼动数据模拟其在医学图像解读过程中的视觉搜索行为模式,实验结果表明,GEM在准确性和通用性方面优于现有方法,为医疗影像的多模态有效利用和模型可解释性提供了新的方向。
Aug, 2024
本研究解决了胸部X光报告生成中自动化模型的准确性问题,提出了一种可扩展的自动化偏好对齐技术,无需额外放射科医生反馈。通过评估五种直接对齐算法,研究结果表明,与传统监督微调基线相比,模型性能显著提升,推动了放射学领域的自动化发展。
Oct, 2024
本研究解决了当前医学眼动追踪数据分散且模糊的问题,影响其在影像诊断中的应用。文章提出了一种新方法,创建了一个针对放射学发现的精细化眼动追踪数据集GazeSearch,目的是使每个注视序列与特定诊断目标对齐,并引入了新的评估基准,以推动医学影像领域的视觉搜索技术发展。研究结果可显著提高深度学习模型的准确性和可解释性,提升临床决策的透明度。
Nov, 2024