GigaPevt: 多模式医疗助理

Feb, 2024

GigaPevt: Multimodal Medical Assistant

Pavel Blinov, Konstantin Egorov, Ivan Sviridov, Nikolay Ivanov, Stepan Botman...

TL;DR通过结合大型语言模型的对话能力和专门的医学模型，本文提出了 GigaPevt 医学助手，解决了构建智能高效的医学助手的困难性问题，并在对话质量和指标表现上取得了显著的优势，问答任务的准确度提高了 1.18%。

Abstract

Building an intelligent and efficient medical assistant is still a challenging ai problem. The major limitation comes from the data modality scarceness, which reduces comprehensive patient perception. This demo p

medical assistant ai problem data modality scarceness multimodal dialog capabilities

发现论文，激发创造

LLaVA-Med: 训练一款大规模语言和视觉助手，用于生物医学领域，仅需一天

本文提出了一种利用 PubMed Central 数据集中的图面注释数据、GPT-4 生成提问数据和新型课程学习方法一起训练的大型语言与视觉助手 (LLaVA-Med)，该助手能回答有关生物医学图像的开放性研究问题，并在标准的生物医学视觉问答数据集上表现出优异的多模态会话能力。

Jun, 2023

医学应用的多模态 ChatGPT：GPT-4V 的实验研究

我们对最先进的多模态大型语言模型 GPT-4V 在视觉问答任务中的能力进行了关键评估，实验充分评估了 GPT-4V 在使用包括 11 种模态（如显微镜、皮肤镜、X 射线、CT 等）和十五种感兴趣的对象（如脑、肝脏、肺等）的病理学和放射学数据集中回答带有图像的问题的能力。我们的数据集涵盖了广泛的医学问题和十六种不同的问题类型。通过准确度评分的实验结果表明，目前的 GPT-4V 版本在应对诊断性医学问题方面的准确性不可靠且次优。此外，我们详细描述了 GPT-4V 在医学视觉问答中的七个独特特征，突出了其在这个复杂领域中的局限性。我们评估案例的完整细节可在此 https URL 上找到。

Oct, 2023

多方面医学图像解读的通用学习器

提出了一种名为 MedVersa 的医学图像解释通用学习器，通过利用大型语言模型作为可学习的协调器，支持视觉和语言监督学习以及多模态输入，在医学图像解释领域得到了最先进的性能，在临床决策辅助方面具有潜力。

May, 2024

推进生物医学中高分辨率视觉语言模型

我们的研究在生物医学领域提出了一个新的指导数据集，利用医学图像文本对，提出了一种新的图像编码策略，通过使用分层表示改善了精细的生物医学视觉理解，并且开发了 LLama3-Med 模型，在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能，相比于以前的方法，平均性能提高超过 10％，这些进展为医疗专业人员提供了更准确可靠的工具，弥补了当前多模态对话助手中的差距，并促进了医疗人工智能的进一步创新。

Jun, 2024

MEDVQA-GI 2023 中 UIST-Saviors: 基于图像增强的胃肠道可视化问题回答的多模态学习改进

结合计算机视觉和自然语言处理，提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能，通过 BERT 编码器和基于卷积神经网络（CNN）和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征，结果显示 Transformer-based 视觉模型在 CNN 上具有优势，并展示了图像增强过程的有效性。

Jul, 2023

迈向通用的生物医学人工智能

医疗中存在多模态的数据，需要基于多模态的数据编码、整合和解释的通用生物医学人工智能系统可以应用于从科学发现到医疗传递等多方面。为了开发这些模型，首先我们整理出一个新的多模态生物医学基准数据集，其中包括 14 个多样化的任务。然后我们引入了 Med-PaLM M，一个大型多模态生成模型，可以灵活地编码和解释临床语言、影像学和基因组学等生物医学数据，其在所有基准任务上的性能优于专家模型，并具备了零样本泛化、任务间正向迁移学习和零样本医学推理等特点。我们还对模型生成的胸部 X 射线报告进行了边际排名，默认情况下医生与 Med-PaLM M 报告相比在 40.50% 的情况下更青睐后者，这表明其具备潜在的临床效用。该研究为通用生物医学人工智能系统的开发提供了一个里程碑。

Jul, 2023

开发生物和医学 ChatGPT：生物医学问答的完整概述

通过自然语言处理和多模态范式，ChatGPT 探索了医学诊断、治疗建议和其他医疗支持的问题回答的战略蓝图，在医学领域数据的逐渐整合下，这些技术加快了医学领域问题回答的进展，通过连接人类自然语言与医学领域知识或专家手动注释的空白，处理了医学环境下大规模、多样化、不平衡或无标签数据分析的场景，强调了在不同任务和数据集中的应用，并概述了当前的挑战和未来医学领域研究的机遇和创新。

Jan, 2024

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

MediFact 参加 MEDIQA-M3G 2024：多模态学习在皮肤科医学问答中的应用

本研究提出了一种弱监督学习方法，通过使用 MEDIQA-M3G 图像的 VGG16-CNN-SVM 模型，并通过多模态融合将视觉和文本信息联系起来，解决了传统方法在开放式医疗问答中的局限性，进一步促进了医学问答研究的发展，为临床决策支持系统的构建提供了新的思路，进而提高了医疗保健的服务水平。

Apr, 2024

Gemini 模型在医学领域的能力

Gemini 模型在医学应用领域的卓越表现面临着挑战，要求先进的推理能力、获取最新的医学知识和理解复杂的多模态数据。该研究引入了 Med-Gemini，一类在医学领域具有高度实用性的多模态模型，能够无缝地使用网络搜索，并可以通过定制编码器高效地适应新的模态特征。在 14 个医学基准测试中，Med-Gemini 取得了新的最佳性能，超过了 GPT-4 模型系列，并在多模态基准测试中取得了相对较大的提升。该研究通过突破先前的方法，在长期匿名健康记录和医学视频问答方面展示了 Med-Gemini 的长语境能力和非凡性能，并在医学文本摘要等任务上超越人类专家。尽管在这个安全关键领域中，需要进一步的严格评估，但我们的结果提供了 Med-Gemini 潜力的有力证据。

Apr, 2024