建立严谨且经济高效的人工智能模型临床试验

Jul, 2024

建立严谨且经济高效的人工智能模型临床试验

Establishing Rigorous and Cost-effective Clinical Trials for Artificial Intelligence Models

Wanling Gao, Yunyou Huang, Dandan Cui, Zhuoming Yu, Wenjing Liu...

TL;DR通过严格有效的评估方法，以患者/临床医生为中心的AI随机对照试验（DC-AI RCTs）和基于虚拟临床医生的试验（VC-MedAI）被提出作为有效替代DC-AI RCTs的方法，以此来评估AI模型在临床实践中的必要性和有效性。

Abstract

A profound gap persists between artificial intelligence (AI) and clinical practice in medicine, primarily due to the lack of rigorous and cost-effective →

发现论文，激发创造

一种用于模拟临床决策的人工智能框架：马尔可夫决策过程方法

为了应对医疗保健系统的成本和复杂度飞速增长、治疗方案不断增多以及信息传达不畅等问题，本文提出了一个通用的计算机/人工智能（AI）框架。该框架结合了马尔可夫决策过程和动态决策网络，从临床数据中学习并制定综合的多方案规划，以优化患者治疗方案和促进患者康复，相较传统医疗保健方式大幅提高了患者康复率并降低了治疗成本。

Jan, 2013

医疗系统临床AI模型开发生命周期概述及案例研究

本文介绍了临床人工智能模型的开发生命周期，并给出了一个基于深度学习的系统的开发过程案例。作者希望这些见解能帮助其他医疗机构和临床从业者，以增加在医疗领域成功部署和集成人工智能模型的可能性。

Mar, 2020

可解释性在构建值得信赖的医疗人工智能中的作用：术语、设计选择和评估策略的综合调查

本文回顾了近期文献，提出了可解释人工智能系统的设计指南以及可解释人工智能领域的规范化贡献。该文章提出了一个框架，以指导选择可解释人工智能方法的类别，进而解释重要属性的相对重要性。同时也发现，尽管定量评价指标对于客观标准化评估很重要，但对于某些属性（如“清晰度”）和解释类型（如“基于实例的方法”）仍然缺乏。最终的结论是，可解释建模可以为可信的人工智能做出贡献，但还需要在实践中证明可解释性的好处，并可能需要采取补充措施，例如报告数据质量，进行广泛（外部）验证和监管等措施。

Jul, 2020

人工智能发展的基准数据集未能满足医疗专业人员的需求

通过深入文献和在线资源的系统性研究，我们编制并发布了一个全面的与临床和生物医学自然语言处理（NLP）广泛领域相关的数据集和基准目录，对450个NLP数据集进行了手动系统化和注释处理，并与跨医疗应用的相关任务进行了比较，结果显示，当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务，因此需要创建新的基准测试以填补这些差距。

Jan, 2022

评估流行的可解释人工智能在临床预测模型中的应用：能否信赖？

本研究旨在评估两种流行的可解释人工智能方法在医疗保健背景下解释预测模型的精确度，重点考虑是否产生与应用任务相一致的域适当表示，如何影响临床工作流程以及是否一致性，结果表明目前的技术还有改进的空间。

Jun, 2023

更新临床人工智能最低信息（MI-CLAIM）生成建模研究清单

借鉴MI-CLAIM清单，本文提出了一份更新的指南，旨在澄清临床研究中生成模型相对传统人工智能模型的训练、评估、可解释性和可重复性差异，以及与伦理标准的对齐。

Mar, 2024

SUDO: 无需真实标注的评估临床人工智能系统的框架

通过SUDO框架，可以评估无标注的数据并训练模型，识别不可靠的预测结果和评估医学中AI系统的算法偏差。

Jan, 2024

人工智能医学数据集术语：历史回顾与建议

医学和人工智能工程代表了两个不同的领域，每个领域都有数十年的出版历史。两个有重叠术语的不同领域合作时，可能会出现沟通不畅和误解。本文通过考察历史文献，包括文章、写作指南和教材，追溯数据集术语的分歧演化及其影响。通过明确这些数据集的准确和标准化描述，可以展示人工智能应用在医学中的健壮性和普适性。本文还识别了常被误解的术语，并提出了解决方案以减少术语混淆。为了提高医学人工智能中的沟通准确性，本综述旨在促进这个交叉学科领域更有效和透明的研究方法。

Apr, 2024

利用大型语言模型加速临床证据综合

利用TrialMind等基于LLMs的人工智能模型，我们介绍了一种为进行医学系统评价而设计的生成型AI流水线。通过结合人类专家的监督，我们证明了TrialMind显著提高了文献综述的过程，并在从超过2000万篇PubMed文章中搜索研究、筛选研究和提取结果的过程中取得了优异的性能。结果还显示，与GPT-4基准相比，八位人类评估者更喜欢TrialMind，其有效率提升了临床研究的效率。

Jun, 2024

卫生技术评估的生成式人工智能：机遇、挑战与政策考虑

人工智能对卫生技术评估具有转变潜力，包括大型语言模型在内的基础模型可以在证据综述、证据生成、临床试验和经济模型等四个关键领域中发挥作用。尽管这些技术有很大的前景，但仍需要持续评估其在卫生技术评估中的应用，并熟悉其当前的限制和科学有效性、偏见风险以及公平和伦理问题。建议HTA机构负责负责地将生成式人工智能集成到工作流程中，并强调人类监督和这些工具的快速演变性质的重要性。

Jul, 2024