科学图像解读的多模态深度学习

Sep, 2023

Multimodal Deep Learning for Scientific Imaging Interpretation

Abdulelah S. Alshehri, Franklin L. Lee, Shihu Wang

TL;DR该研究提出了一种新的方法，通过多模态深度学习框架从文本和视觉数据中提取洞察力，以模拟和评估人类对扫描电子显微镜 (SEM) 图像（特别是玻璃材料）的交互。我们的模型（GlassLLaVA）在解释、特征识别和检测以前未见的 SEM 图像中的缺陷方面表现出色，为科学成像应用引入了多用途的评估指标，进一步缩小人与机器解释在科学成像中的差距，为未来研究和广泛应用提供了广阔的可能性。

Abstract

In the domain of scientific imaging, interpreting visual data often demands an intricate combination of human expertise and deep comprehension of the subject materials. This study presents a novel methodology to linguistically emulate and subsequently evaluate human-like interactions w

scientific imaging scanning electron microscopy glass materials deep learning framework sem images

发现论文，激发创造

大型多模型模型能否揭示图像背后的深层语义？

通过 DEEPEVAL 评估，本研究发现现有的大型多模态模型对深度语义的理解能力与人类存在明显差距，尽管在图像描述方面达到了与人类相媲美的性能。进一步分析表明，推理过程中结合描述文本可以显著增强大型多模态模型对深度语义的感知能力。

Feb, 2024

深度学习实现亚距离限制扫描超透镜显微镜的大景深图像

使用深度学习构建的扫描超透镜显微镜 (SSUM) 系统通过光学超分辨率图像和扫描电子显微镜 (SEM) 领域图像之间的映射关系，将光学超分辨率图像转化为类似 SEM 的具有大景深的图像，其在图像转换中表现出色，重构结果具有高层次的细节，适用于芯片级缺陷检测、生物样品分析、法医学以及其他各个领域。

Oct, 2023

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024

利用文本语义改进生物医学视觉 - 语言处理

本文介绍了一种基于语义模型的对比学习方法，该方法在生物医学领域的文本 - 语言建模中取得了目前最先进的结果，利用该方法可以更好地理解医学图像和报告。

Apr, 2022

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

生物医学图像和文本中的多模态深度学习综述

本综述研究了多模态深度学习（MDL）在医学图像和文本联合学习中的应用及其在医学中的潜在价值，并提出了未来方向和挑战。

Jul, 2023

稳定的 LLaVA：通过合成的图像对话数据增强视觉指导调整

我们提出了一种新的数据收集方法，通过异步合成图像和对话以进行视觉指导调优，结合 ChatGPT 和文本到图像生成模型的能力，显著增强了多种模型功能。

Aug, 2023

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

评估基于 LLM 生成的医学图像和症状分析的多模态诊断

该研究提出了一种包括多步骤评估法的大型语言模型（LLM）评估范例，通过结构化的交互方式进行多模态 LLM 评估，并通过获取交互数据进行后续领域特定的分析，以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM，使用多模态多项选择题评估其在病理学领域的医学诊断准确性，结果表明其约有 84% 的正确诊断，同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview，还可应用于评估其他 LLMs 的准确性和实用性，以进一步优化其应用。

Jan, 2024

训练小型多模态模型以弥合生物医学能力差距：放射学成像的案例研究

利用模块化方法针对医学领域使用开源小型多模态模型来解决大规模基础模型在临床需求中存在的问题，并在放射学成像中展示了 LLaVA-Rad 模型的最新结果和其在报告生成和跨模态检索中的性能优势，成为真实世界临床应用的前景工具。

Mar, 2024