Rad-ReStruct: 一种结构化放射学报告的新型VQA基准和方法
本研究提出了一种基于文本属性的整合方法,包括三个模型:聚焦句模型、周围上下文模型和格式/布局模型,采用双向LSTMs和句子编码来获取上下文,结合多个特征和报告结构进行自动标注,取得了相对于其他方法来说更好的97.1%精度。
Oct, 2020
本文介绍了RadGraph数据集,这是一个基于新的信息提取模式设计的全文胸部X射线放射学报告中实体与关系的数据集。作者还发布了与之相关的开发、测试和推理数据集,并训练了一个深度学习模型——RadGraph Benchmark,该模型在MIMIC-CXR和CheXpert测试集上分别达到0.82和0.73的微F1得分。这些数据集可用于医疗自然语言处理、计算机视觉和多模态学习等领域的研究。
Jun, 2021
通过使用RadGraph奖励提出了一种基于胸透领域实体和实体关系的新方法,以进一步提高放射学报告的实际完成和正确性,该方法显着改善了放射学报告生成效果。
Oct, 2022
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了SLAKE数据集,使我们的模型能够回答更多样化的问题,不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了79.55%的top-1准确度,表现与当前最先进的模型相当。这项研究不仅推进了医学VQA,还在诊断环境中开辟了实用应用的途径。
Jan, 2024
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题,我们引入了一种新颖的策略SERPENT-VLM,将自我完善的机制集成到MLLM框架中,通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性,在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示,从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本,从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext(ROCO)数据集上优于现有的基线方法,如LLaVA-Med、BiomedGPT等,并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展,为医学成像领域的自监督完善研究打开了新的研究路径。
Apr, 2024
将报告生成扩展到包括图像上的个别发现的定位,提出使用大型语言模型的推理能力进行基于现实的报告生成评估框架,介绍了结合放射学特定图像编码器和大型语言模型的MAIRA-2,证明了这些增加内容显著提高报告质量并减少错误,以及展示了基于现实的报告生成作为一项新的丰富任务的可行性。
Jun, 2024
RadEx是一个端到端框架,包括15个软件组件和10个工件,用于从放射学报告中进行自动化信息提取,支持医生定义临床领域相关信息和创建报告模板,实现信息提取系统的快速实施与维护。
Jun, 2024
本研究解决了现有视觉语言模型在放射学领域的多模态复杂性不足的问题。提出的RadFound模型针对放射学训练,并引入增强的视觉编码器和统一的跨模态学习设计,以提升模型的多模态感知与生成能力。研究表明,RadFound在真实环境基准测试中显著优于其他模型,展示了其在临床工作流程中的广泛应用潜力。
Sep, 2024
本研究解决了3D医学图像报告生成的不足,提出了一种名为3D-CT-GPT的视觉问答模型,旨在提升胸部CT扫描的报告生成质量。研究表明,3D-CT-GPT在报告准确性和一致性方面显著优于现有方法,展示了其在临床放射学报告生成中的潜在影响。
Sep, 2024