误信:测量机器学习对人类决策的干扰
该研究针对 AI 辅助决策中人类决策者何时应该信任 AI,何时应该信任自己的问题,提出了基于任务实例级别的双方正确概率计算及三种信任校准策略,并进行了两项初步研究和一项比较实验,结果表明该方案的效果显著提高了人类对 AI 的适当信任,为更人性化的 AI 决策提供了实用意义。
Jan, 2023
本文提出了一种量化解释性方法质量的量化度量,并在众包实验中通过信息传输速率得到了实证证据,从而说明解释性方法的价值。同时,还提出了一种信任度量,以检测人类决策是否过度偏向机器学习预测。
Jan, 2019
机器学习在信任与安全问题中的应用存在研究和实践之间的脱节,以误信息检测为案例研究,我们系统化了 270 篇领域内有广泛引用的文献,并对其中的数据和代码可用性、设计失误、可重现性和普适性进行了检查。我们发现文献中存在显著的不足之处,对所声称的性能和实用性提出了质疑。检测任务往往与在线服务面临的挑战有实质性区别。数据集和模型评估往往不代表现实世界环境,评估通常也与模型训练不独立。数据和代码的可用性较差,模型在领域外的数据上泛化效果不佳。基于这些结果,我们提出了评估解决信任与安全问题的机器学习应用的建议,希望未来的研究能避免我们所识别的问题。
Aug, 2023
这篇论文针对机器人、虚拟角色、智能车辆、决策帮助等各类 AI 系统中关于信任模型的应用和测量方法缺乏标准化的现状进行了概述和分析。作者提出了一些系统的研究目标,并为当前文献汇总的优点和缺点提供了解决方案和研究议程。
Apr, 2022
通过一项大规模众包研究,本文揭示和量化了通过图像分类任务来人与计算机理解背景的分歧,并回答了哪些复杂机器学习模型更接近于人类使用特征以进行准确预测,任务的难度如何影响机器选择特征的能力,并与人类相比,人类是否一致更擅长选择使图像识别更精确的特征。以上发现对于人机协作具有重要的意义,考虑到人工智能领域的长期目标是使机器能够像人类一样学习和推理。
Jan, 2021
通过一个模拟物体检测系统的实验,我们研究了交互反馈对用户对智能系统及其准确性理解的影响,结果表明提供循环反馈降低了参与者对系统的信任和其对系统准确性的感知,这凸显了在设计智能系统时考虑用户反馈对用户信任的影响的重要性。
Aug, 2020
探讨了使用 AI 辅助决策时,人工智能的预测性能与偏差如何对人类决策产生影响的复杂动态,并通过大规模用户研究发现,高性能的模型显著提高了人类在混合环境中的表现,但有些模型削弱了混合偏见,有些则加重了混合偏见。这些研究结果表明,预先评估这些复杂动态对于部署人工智能具有明确的必要性。
Feb, 2022
本文研究在自动化机器学习 (AutoML) 领域中的信任问题,发现在 AutoML 工具中包含透明度特性可以增加用户的信任和理解度,其中模型性能指标和可视化是建立用户信任 AutoML 工具时最重要的信息。
Jan, 2020
本研究提供了一种系统的方法来将社会科学信任概念与建立在人工智能服务和产品上使用的机器学习技术相关联,探讨了四种类别的机器学习技术 (公平性、可解释性、可审计性和安全性) 如何影响人们的信任,并介绍了在 AI 系统生命周期的不同阶段建立信任的技术需求。
Nov, 2019
本研究进行实证研究,以确定不确定性估计和模型解释对用户对模型的信任和理解的影响,探讨如何将自信度纳入分析结果以提高决策求同的准确性。
Apr, 2023