MINT: 使多模态和多图像 AI 模型互动的封装器
此研究论文介绍了 AI 生成内容中的 foley 音频在多媒体内容中提升沉浸式体验的重要性和挑战,探讨了当前文本到音频技术在视频配音应用中的局限,并提出了多模态音频配音数据集(MINT)和一种基于大型语言模型的含有复合模态提示的内容规划、生成和对齐框架,通过增强学习方法优化训练过程,提高配音质量和生成音频的真实感,为多模态配音领域提供了强大的解决方案。
Jun, 2024
介绍了迄今为止最广泛且多样化的开源多模态交错数据集 MINT-1T,其中包括十亿个文本标记和三十亿个图像,并分享了在该数据集上训练的大型多模态模型 LMMs 的性能与之前领先数据集 OBELICS 相媲美。
Jun, 2024
本研究提出了一种弱监督学习方法,通过使用 MEDIQA-M3G 图像的 VGG16-CNN-SVM 模型,并通过多模态融合将视觉和文本信息联系起来,解决了传统方法在开放式医疗问答中的局限性,进一步促进了医学问答研究的发展,为临床决策支持系统的构建提供了新的思路,进而提高了医疗保健的服务水平。
Apr, 2024
机器学习在医疗人工智能系统中的应用,从传统和统计方法转向深度学习模型甚至最近的生成模型。近年来,发现了支持多模态数据集成的广泛可用的深度学习架构,尤其是针对图像的。将多种模态融入到这些模型中是一个蓬勃发展的研究课题,提出了独特的挑战。本文讨论了针对医学基于图像的临床决策支持模型的多模态人工智能的五大挑战(表示、融合、对齐、翻译和协同学习),并调查了近期解决这些挑战的方法。我们最后讨论了该领域的未来,并提出了在成功的临床模型及其在临床环境中的转化方面应进一步阐明的方向。
Nov, 2023
结合计算机视觉和自然语言处理,提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能,通过 BERT 编码器和基于卷积神经网络(CNN)和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征,结果显示 Transformer-based 视觉模型在 CNN 上具有优势,并展示了图像增强过程的有效性。
Jul, 2023
本文介绍了建立 MedPix 2.0 数据集的整个工作流程,其主要涉及人工智能在医学领域的应用、多模态医学数据集、CT 或 MR 扫描等。同时,还提出了基于 MedPix 2.0 的 CLIP 模型用于扫描分类任务。
Jul, 2024
医疗中存在多模态的数据,需要基于多模态的数据编码、整合和解释的通用生物医学人工智能系统可以应用于从科学发现到医疗传递等多方面。为了开发这些模型,首先我们整理出一个新的多模态生物医学基准数据集,其中包括 14 个多样化的任务。然后我们引入了 Med-PaLM M,一个大型多模态生成模型,可以灵活地编码和解释临床语言、影像学和基因组学等生物医学数据,其在所有基准任务上的性能优于专家模型,并具备了零样本泛化、任务间正向迁移学习和零样本医学推理等特点。我们还对模型生成的胸部 X 射线报告进行了边际排名,默认情况下医生与 Med-PaLM M 报告相比在 40.50% 的情况下更青睐后者,这表明其具备潜在的临床效用。该研究为通用生物医学人工智能系统的开发提供了一个里程碑。
Jul, 2023
提出了一种集成视觉表示和诊断关键词的新型深度学习架构 (Multi-Modal Medical Transformer, M3T),用于眼底图像的生成精确和连贯的医学描述。在 DeepEyeNet 数据集上的实验研究验证了 M3T 在满足眼科医生标准方面的成功,相比最佳基线模型,BLEU@4 有了显著的 13.5% 改进。
Jun, 2024
通过设计半自动注释过程,构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准 MedVQA 数据集 R-RAD 和 R-SLAKE,并将其纳入训练过程中,通过三种不同的策略生成决策结果和相应的理由,从而清楚地展示推理过程中的医疗决策过程,实验证明该方法在 R-RAD 上能达到 83.5% 的准确率,在 R-SLAKE 上能达到 86.3% 的准确率,显著优于现有最先进的基线模型。
Apr, 2024
提出了一种基于 Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR) 模型的医学人工通用智能模型,通过融合不同的基本医学知识,实现了对于医学预训练模型较好的跨模态对齐,形成了一种医疗智能基础模型,引入指导性知识在下游任务中展示了优异的可解释性和潜力。
Apr, 2023