CARES：医疗视觉与语言模型的信任度综合基准

Jun, 2024

CARES：医疗视觉与语言模型的信任度综合基准

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models

Peng Xia, Ze Chen, Juanxi Tian, Yangrui Gong, Ruibo Hou...

TL;DR通过 CARES 综合评估医学领域中基于 Med-LVLMs 的可信度，并发现这些模型在可信度、公平性、安全性、隐私保护和稳健性等方面存在问题。

Abstract

artificial intelligence has significantly impacted medical applications, particularly with the advent of medical large vision language models (Med-LVLMs), sparking optimism for the future of automated and persona

artificial intelligence medical large vision language models trustworthiness cares automated healthcare

发现论文，激发创造

多模态大型语言模型可信度评估：一项全面研究

通过建立 MultiTrust 综合基准，本研究通过对 21 种现代多模态大型语言模型的广泛实验，揭示了一些之前未开发的可信度问题与风险，强调了多模态性引入的复杂性，并强调提升其可靠性的先进方法的必要性。

Jun, 2024

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

视觉中可信大规模模型：调查

大型模型的快速进展在深度学习的各个领域中带来了显著的成绩，但其强大性能而不可信赖的行为成为学术界和工业界面临的挑战。本综述总结了在视觉领域中妨碍大型模型信赖使用的四个相关问题，包括人类误用、易受攻击、内在问题和解释性，通过突出每个主题中的相应挑战、对策和讨论，希望读者能更好地理解该领域，促进大型模型与人类期望的一致性，使可信赖的大型模型成为人类社会的福祉而非灾难。

Nov, 2023

构建可信的长期记忆模型：解决医疗人工智能中的幻觉问题

在医疗保健领域，大型语言模型的采用存在对可信度、连贯性和幻觉等问题的犹豫。本文讨论了在医疗保健领域中实现可靠、可信赖和无偏倚模型的关键因素，并重点关注在医疗保健背景下幻觉的量化、验证和缓解。最后，我们讨论了大型语言模型在医疗保健中的未来。

Sep, 2023

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024

大语言模型与用户信任：聚焦于医疗保健

论文探讨了临床医师对 LLMs 的信任与数据来源从人生成为 AI 生成内容的演变关系，并随之对 LLMs 的准确性和临床医师能力的影响。关注的其中一个主要问题是随着 LLMs 对其输出越来越依赖于学习，可能导致输出质量的降低和临床医师技能的减弱，因为与基本诊断过程的接触减少。虽然目前处于理论阶段，但这种反馈循环对于深入整合 LLMs 于医疗保健领域提出了重大挑战，强调了积极对话和战略措施以确保 LLM 技术的安全有效使用的必要性。此外，我们深入探讨了 LLMs 自我参考学习循环和医疗保健专业人员能力下降的潜在风险。LLMs 在回音室内运行的风险，其中 AI 生成的内容反馈到学习算法中，威胁到数据池的多样性和质量，可能固化偏见并降低 LLMs 的效力。同时，对 LLMs 在常规或关键任务方面的依赖可能导致医疗保健提供者的诊断和思考能力下降，特别影响未来专业人员的培训和发展。

Mar, 2024

大型语言模型多轮医疗咨询自动评估框架

该研究介绍了一种自动评估框架，评估了大型语言模型作为虚拟医生在多轮咨询中的实际能力，通过重构来自美国医疗执照考试的医学多项选择题，提出了一个基准测试集，并开发了综合评估指标。研究结果表明，使用培训集对大型语言模型进行微调，可以减轻幻觉并提高其在所提出基准上的性能。

Sep, 2023

基于验证和验证的视角对大型语言模型的安全性和可信度进行调查

本文介绍了大语言模型（LLMs）在人工智能领域的应用。主要探讨了 LLMs 的安全性和可靠性问题，并对经典软件和深度学习模型如卷积神经网络的验证和验证技术进行了综述和扩展，以提供对 LLMs 及其应用程序的安全性和可靠性的严格分析。

May, 2023

一个针对大型语言模型的 S.C.O.R.E. 评估框架：安全性，共识性，客观性，可重复性和可解释性

一个用于对大型语言模型进行全面质量评估的框架，超越传统准确性和定量指标，提出了评估 LLM 的 5 个关键方面：安全性、共识性、客观性、可再现性和可解释性（S.C.O.R.E.）。我们建议 S.C.O.R.E. 可以成为未来的基于 LLM 模型的评估框架，用于医疗保健和临床应用，确保其安全、可靠、可信和道德。

Jul, 2024

医学图像分析中基础模型的可信度调查

医学影像基础模型的快速发展代表了提高诊断准确性和个性化治疗水平的重大突破。然而，基础模型在医疗保健领域的部署需要对其可信度进行严格的审查，包括隐私、鲁棒性、可靠性、可解释性和公平性。这篇综述文章回顾了基础模型在主要医学影像应用中的当前研究，重点关注分割、医学报告生成、医学问答和疾病诊断，并总结了当前在这些领域中提高可信度的关注点和策略。此外，我们探讨了这些模型在革新患者护理方面的未来前景。我们的分析强调了在医学影像分析中迈向可信度的人工智能的必要性，并主张在确保道德和公平的医疗保健交付的同时，采取平衡的方法促进创新。

Jul, 2024