SUDO: 无需真实标注的评估临床人工智能系统的框架
文章提出了一种新的框架,通过对可能性进行后验推理的方式来聚合多个标注者的标注结果,并提供了适用于不确定性的结果评估指标,使得评估模型更准确地反映了真实的预测能力。
Jul, 2023
通过使用 CART 算法,本研究提出了一种创新的框架,用于检测医疗人工智能决策支持系统中的算法偏见。通过一系列合成数据实验和格拉迪纪念医院的电子病历实验,我们验证了该方法的准确性和实用性,进一步证明了它在临床环境中作为确保公平和公正的关键工具。
Dec, 2023
本研究开发了一种因果关系框架,以阐明代理标签的有效性以及先前建模工作所假定的隐含假设并推荐验证这些假设是否符合实践的评估策略,进一步讨论了未来研究中更好地解决目标变量偏差的机会。
Feb, 2023
通过研究概念为基础的模型,作者认为通过训练不确定的概念标签有助于减轻概念为基础的系统处理不确定干预时的弱点,从而披露了一些开放性挑战,并提到未来需要进行多学科研究来构建交互式的不确定性感知系统。
Mar, 2023
引言中介绍了 SituAnnotate,这是一个专门为'situated grounding' 而设计的新本体论,旨在将用于训练 AI 系统的基础真实数据与从中产生这些基础真实数据的情境和文化背景联系起来,通过结构化和上下文感知的数据注释的本体论方法,解决由于孤立注释引起的潜在偏见问题,确保语义丰富性,为知识表示提供稳健一致的基础。SituAnnotate 还作为创建、查询和比较基于标签的数据集的方法,使下游的 AI 系统能够在考虑上下文和文化偏见的情况下进行训练,为增强系统的可解释性和适应性奠定了基础,使得 AI 模型能够与多种文化背景和观点相契合。
Jun, 2024
使用 CrowdTruth 方法通过众包获得医疗关系提取的注释数据集,并通过建模歧义性提高数据质量并减少成本,展示了在人类和机器性能方面均考虑歧义性时的加权测量精度、召回率和 F 度量的优势。
Jan, 2017
使用人工智能(AI)指导患者护理或操作过程的影响是 AI 模型输出、基于该输出的决策制定协议以及参与方采取必要后续行动的相互作用。斯坦福医疗保健的数据科学团队开发了一种 “公平、有用和可靠 AI 模型(FURM)” 的机制,通过进行伦理审查来识别潜在的价值不匹配,通过模拟估计有用性,通过财务预测评估可持续性,以及通过分析来确定 IT 的可行性,设计部署策略,并推荐前瞻性的监测和评估计划,从而实现在部署之前估计其影响效果,以及在实时研究其影响效果。我们报道了对六个 AI 模型指导解决方案进行的 FURM 评估,以评估其潜在采用性的过程,涵盖临床和操作设置,每年可能影响数十个到数万个患者。我们描述了评估过程,总结了这六个评估,并分享了我们的框架,以使他人能够进行类似的评估。在我们评估的六个方案中,有两个已进入规划和实施阶段。我们的创新贡献,包括模拟估计的有用性、量化可持续性的财务预测以及进行伦理评估的过程,以及底层方法和开源工具,可供其他医疗保健系统进行可行的候选 AI 解决方案评估。
Feb, 2024
基于科学的认证方法,该研究提出了在未经训练的操作环境中评估预训练数据驱动模型可行性的方法,通过深入整合领域知识和数据驱动的人工智能模型,利用物理和相关学科的理论和分析模型,提供安全可靠的工程系统的决策支持,以提高人工智能模型在限制训练数据和动态不确定条件下的可靠性和安全性。
Mar, 2024
本文阐述 “数据透视主义” 的概念,提出通过采取人类主体在机器学习过程中所涉及到的知识表达方法,来代替传统的黄金标准数据集。文章探讨了如何在实践中采用透视主义态度来解决主观和客观机器学习任务的问题,并提出相关建议和研究议程。
Sep, 2021