M3T: 多模态医疗转换器连接临床背景与视觉洞察用于视网膜图像医学描述生成

Jun, 2024

M3T: 多模态医疗转换器连接临床背景与视觉洞察用于视网膜图像医学描述生成

M3T: Multi-Modal Medical Transformer to bridge Clinical Context with Visual Insights for Retinal Image Medical Description Generation

PDF

Nagur Shareef Shaik, Teja Krishna Cherukuri, Dong Hye Ye

TL;DR提出了一种集成视觉表示和诊断关键词的新型深度学习架构 (Multi-Modal Medical Transformer, M3T)，用于眼底图像的生成精确和连贯的医学描述。在 DeepEyeNet 数据集上的实验研究验证了 M3T 在满足眼科医生标准方面的成功，相比最佳基线模型，BLEU@4 有了显著的 13.5% 改进。

Abstract

automated retinal image medical description generation is crucial for streamlining medical diagnosis and treatment planning. Existing challenges include the reliance on learned retinal image representations, diff

automated retinal image medical description generation multi-modal medical transformer (m3t)visual representations retinal images

发现论文，激发创造

跨模态临床图形变换器用于眼科报告生成

该论文提出了一种用于眼科报告生成的交叉模态临床图变换器（CGT）模型，该模型利用数据驱动的神经网络和临床关系三元组注入到视觉特征中，以提高模型的效果并克服基于通用生物医学知识库的知识注入的局限性。通过自然语言处理，该模型从领域内训练报告中提取临床实体和关系数据，并在编码过程中仅限制可见矩阵的影响，实现了优于之前基准模型的最佳表现。

Jun, 2022

DeepOpht：基于深度模型和视觉解释的视网膜图像医学报告生成

本研究针对视网膜疾病治疗方案提出一种基于人工智能的方法，旨在帮助眼科医生提高诊断效率和准确性。该方法包括深度神经网络模型、视网膜疾病自动诊断和临床描述生成器、DNN 可视化解释模块，并提供基于眼科医生手动标注的视网膜图像数据集进行训练和验证。实验结果表明，该方法无论是定量还是定性分析都取得了显著的效果，并成功生成了有临床意义的视网膜图像描述和可视化解释。

Nov, 2020

M3T: 多模文档级机器翻译的新基准数据集

本文介绍了 M3T，这是一个新颖的基准数据集，旨在评估 NMT 系统在翻译半结构化文档的全面任务上的表现，并解决了现实世界应用中丰富文本布局所带来的挑战。

Jun, 2024

M3D：利用多模态大型语言模型推进 3D 医学图像分析

该研究论文通过大规模的三维多模态医学数据集 M3D-Data 和多模态大型语言模型 M3D-LaMed，在各种三维医学任务上实现了先进的医学图像分析方法，并提出了用于自动评估的新的三维多模态医学基准 M3D-Bench。

Mar, 2024

Med3DInsight：利用 2D 多模态大型语言模型增强 3D 医学图像理解

通过结合现有的 3D 图像编码器和 2D MLLMs，并通过设计的 Plane-Slice-Aware Transformer（PSAT）模块，提出了一种名为 Med3DInsight 的新颖预训练框架，用于增强对 3D 医学图像的理解。实验证明，在两个下游分割和分类任务中，包括使用 CT 和 MRI 模式的三个公共数据集以及与十多个基准模型的比较中，Med3DInsight 取得了最先进的性能，并且可以轻松集成到任何当前的 3D 医学图像理解网络中，显著提高其性能。

Mar, 2024

医学视觉与语言预训练的多模态掩码自编码器

提出了一种基于 M$^3$AE 的自监督学习模型，通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型，并在三个任务上实现了最先进水平的结果。

Sep, 2022

一种基于 Transformer 的表征学习模型，用于临床诊断的多模态输入统一处理

我们提出了一个基于 Transformer 的诊断辅助模型，可以以统一的方式处理多模态输入，该模型在辨别肺部疾病方面表现出了比仅使用图像模型和非统一多模态诊断模型更高的识别率，并在 COVID-19 患者的不良临床预后方面表现出了更高的预测能力。

Jun, 2023

基于 Transformer 的跨模态肿瘤分割的图像级监督和自训练

我们提出了一种名为 MoDATTS 的新的半监督训练策略，用于处理自动医学图像分割中存在的模态遗传性问题，并通过图像转换和视觉转换器实现更准确的肿瘤分割。该模型在 CrossMoDA 2022 挑战中表现出优越的性能，并在 BraTS 2020 挑战数据集上显示出一致的改进。

Sep, 2023

使用 Transformer 进行多标签视网膜疾病分类

该研究提出了一种新颖的多标签分类系统，用于检测来自各种来源的眼底图像中的多种视网膜疾病，并构建了一个新的多标签眼底疾病数据集（MuReD 数据集），并使用基于 transformer 的模型进行图像分析和决策制定，实验结果显示该系统较同类方法的 AUC 分数在疾病检测和疾病分类方面分别提高了 7.9％和 8.1％。

Jul, 2022

TransMed: 基于 Transformers 的多模态医学图像分类

该研究提出了一种结合了 CNN 和 transformer 的方法 ——TransMed，在多模态医学图像分类中取得了很好的性能，这一方法为医学图像分析任务开启了更多可能性。

Mar, 2021

M3T: 多模态医疗转换器 连接临床背景与视觉洞察 用于视网膜图像医学描述生成

M3T: 多模态医疗转换器连接临床背景与视觉洞察用于视网膜图像医学描述生成