文本反转与自监督精炼的放射学报告生成

May, 2024

文本反转与自监督精炼的放射学报告生成

Textual Inversion and Self-supervised Refinement for Radiology Report Generation

Yuanjiang Luo, Hongxiang Li, Xuan Wu, Meng Cao, Xiaoshuang Huang...

TL;DR此篇论文提出了基于文本反转和自监督改进 (TISR) 的方法，通过解决编码器和解码器网络结构的问题，克服了模态差异和报告内容限制，实现了文本和图像在同一空间中的表示，通过对图像和文本之间的对比损失计算来改进生成的报告的准确性。该方法与现有方法独立且易于使用，通过在两个常用公开数据集上的实验，取得了显著的改进效果，展示了 TISR 的有效性和普适性。

Abstract

Existing mainstream approaches follow the encoder-decoder paradigm for generating radiology reports. They focus on improving the network structure of encoders and decoders, which leads to two shortcomings: overlooking the →

encoder-decoder paradigm textual inversion and self-supervised refinement (tisr)modality gap report content constraints cross-modeling gap

发现论文，激发创造

通过图像和自由文本放射学报告之间的交叉监督实现广义放射图像表示学习

该研究介绍了一种名为 REviewing FreE-text Reports for Supervision（REFERS）的交叉监督方法，该方法可以从放射学报告中获得免费的监督信号，并且优于现有的预训练方法，具有在放射科学中推广应用的潜力。

Nov, 2021

重新思考超分辨率，作为基于文本的细节生成技术

本文提出了一种基于语义图像细节增强的图像超分辨率方法，其中利用文本和图像模态的多模态融合学习来提高图像的语义准确性和视觉质量。该方法通过粗到细的过程生成文本描述匹配的高分辨率图像细节，实验证明该方法具有显著的效果。

Jul, 2022

胸部 X 光报告生成的弱监督对比学习

本篇论文提出了一种弱监督的对比损失方法，用于提高放射学报告生成的文本质量，实验结果表明该方法在两个公共基准数据集上在临床正确性和文本生成指标方面优于以前的工作。

Sep, 2021

利用文本监督进行参考图像分割

我们提出了一种新颖的弱监督引用图像分割 (RIS) 框架，通过将目标定位问题在分类过程中进行正负文本表达的区分来利用 RIS 中已有的引用文本提供的信息来定位目标物体。我们的框架具有三个主要创新点：借助双向提示方法协调视觉和语言特征之间的域差异，通过校准方法减少噪声背景信息并提高响应图的正确性，通过正响应图选择策略从增强的响应图生成高质量的伪标签，用于训练 RIS 推理的分割网络。通过在四个基准数据集上的实验证明，我们的框架在与现有的全监督 RIS 方法相当的性能的同时，优于从相关领域调整的最新弱监督方法。

Aug, 2023

TiBiX：利用时序信息进行双向 X 射线和报告生成

提出了一种名为 TiBiX 的方法，利用时间信息实现双向 X 光和报告生成，通过考虑先前的扫描，解决了两个挑战性问题，同时在报告生成和图像生成方面实现了良好的性能。

Mar, 2024

用生成变换器将自由文本放射学记录重塑为结构化报告

自由文本放射学报告中提取信息的流程，以及使用自然语言处理和基于 Transformer 的模型填充结构化报告注册表的性能评估和比较。

Mar, 2024

基于渐进式 Transformer 的放射学报告生成

提出一个基于课程学习的顺序（即，图像 - 文本 - 文本）生成框架，从而将放射学报告的生成问题分为两步。使用变压器体系结构，将图像以步骤一为全局概念生成，然后进行二次生成，提高了两个基准数据集的最新技术水平。

Feb, 2021

可控个性化文本到图像生成的文本反转

本文提出了一种名为 COTI 的新方法，应用在大规模生成模型中，通过一个综合的、新颖的加权评分机制指导的理论损失目标，实现了具有鲁棒性、数据高效性和易于使用等特点，能够显著提升 FID 得分并增加 R-precision 的生成模型，一定程度上解决了过往生成模型中仍存在的问题。

Apr, 2023

基于 Transformer 的自蒸馏生成式先验用于脑 MRI 超分辨率

本研究提出了一种基于 TransMRSR 的创新性两阶段脑 MRI 超分辨率方法，具有良好的细节保留和结构重建性能，其中 GAN 是提高高分辨率图像生成质量的关键模块之一。

Jun, 2023

SERPENT-VLM：利用视觉语言模型自我生成精化放射学报告

尽管现有方法经常会在基于文本的报告中凭空想象细节，而不能准确反映图像内容，但《Radiology Report Generation（R2Gen）》展示了多模态大型语言模型（MLLMs）如何自动化生成准确和连贯的放射学报告。为了缓解这个问题，我们引入了一种新颖的策略 SERPENT-VLM，将自我完善的机制集成到 MLLM 框架中，通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性，在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像 - 文本表示，从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本，从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM 在 IU X-ray 和 Radiology Objects in COntext（ROCO）数据集上优于现有的基线方法，如 LLaVA-Med、BiomedGPT 等，并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了 MLLM 框架在 R2Gen 中向更复杂方向发展的重要进展，为医学成像领域的自监督完善研究打开了新的研究路径。

Apr, 2024