生物医学视觉教学优化与临床医师偏好一致性调整
我们提出了一种新的对齐算法,利用临床推理的符号化表示来将视觉语言模型 (VLMs) 与医学知识联系起来,从而生成与临床推理和诊断路径一致的多轮对话,并在多轮医学对话中展示出强大的性能。
May, 2024
通过构建包括 160 万对问答对、106 千个详细图像描述的 320 万视觉指令调整数据集,对多模态模型进行训练可显著提高其在视觉感知、推理和规划方面的多模态性能。
Jul, 2023
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即 PMC-VQA,该数据集包含 149k 张图片的 227k 个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
以 EmoVIT 架构为基础,使用 GPT 辅助流程生成情感视觉指令数据,并通过广泛实验证明了模型在情感分类、情感推理和幽默理解方面的能力,为语言模型时代的情感视觉指导调整提供了强有力的基准,并为未来的探索打开了新的可能性。
Apr, 2024
本文系统综述了视觉指令调整方法,包括计算机视觉任务范式、视觉指令调整的发展、常用的网络架构、评估设置和任务、常用的数据集、已有的视觉指令调整方法的分类和对比、挑战和未来研究方向。
Dec, 2023
通过引入偏好调优和自动生成数据的方法 POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
Feb, 2024
我们的研究在生物医学领域提出了一个新的指导数据集,利用医学图像文本对,提出了一种新的图像编码策略,通过使用分层表示改善了精细的生物医学视觉理解,并且开发了 LLama3-Med 模型,在生物医学视觉问答基准测试中实现了最先进的零 - shot 性能,相比于以前的方法,平均性能提高超过 10%,这些进展为医疗专业人员提供了更准确可靠的工具,弥补了当前多模态对话助手中的差距,并促进了医疗人工智能的进一步创新。
Jun, 2024
医疗报告生成需要自动创建连贯准确的医学图像描述。本研究基于最先进的视觉语言预训练和微调方法 BLIP-2,利用适配器调优和医学知识增强损失,显著提高了模型的准确性和连贯性。在 ImageCLEFmedical 2023 的数据集上验证,我们的模型取得了最佳的平均结果,优于几种最先进的方法。ROUGE 和 CIDEr 的显著改进突显了我们方法的有效性,为快速适应视觉语言基础模型以应对数据匮乏的挑战带来了有希望的结果。
Dec, 2023
我们提出了一种新的数据收集方法,通过异步合成图像和对话以进行视觉指导调优,结合 ChatGPT 和文本到图像生成模型的能力,显著增强了多种模型功能。
Aug, 2023
通过引入区域级别的视觉编码器,本文提出了一种增强图像教学调整功能的多模态大型语言模型(MLLMs),以实现更细粒度的模态交叉对齐,并设计了多种数据生成策略构建了图像 - 区域 - 语言指令数据集,实验结果表明该模型的卓越性能。
Aug, 2023