当 AI 模型进行外推时我们应该信任它们到什么程度?
研究人员探究了人们在处理两项困难任务时,对机器学习(ML)建议的信任程度;他们发现,即使人们了解这些任务,并给出了表明该系统不自信的信息,但在执行大部分时间正确的任务时,人们也会相信错误的 ML 建议,并且提供了四种不同类型的系统信息可增加人们对建议的信任,并且数学和逻辑技能对于使用 ML 建议的决策者来说可能与 ML 一样重要。
May, 2020
本文考虑了学习支持外推的表示的挑战,引入了一种新颖的视觉类比基准和一种简单的技术:时间上下文归一化来支持关系强调的表示,接着发现该技术显著提高了外推能力,胜过了许多竞争技术。
Jul, 2020
以人工智能和机器学习为基础,本文研究了预测后推断问题的统计挑战,包括预测结果与真实结果之间的关系、机器学习模型对训练数据的鲁棒性以及将预测的偏差和不确定性传播到最终推断过程中。同时与传统领域的相关研究进行对比,揭示了设计在经典和现代推断问题中的作用。
Jan, 2024
通过从目标人群中获取的新数据进行模型的外部验证,以确保验证性能的清晰用途和模型的可靠性,同时应该在模型开发期间谨慎调查模型的普适性,以开发并应用可靠、公平和可信的人工智能预测模型。
Apr, 2023
本文介绍了一个过程导向的适当依赖概念,称为关键使用,通过将人类的能力与 AI 模型无法获取的知识相对比,以帮助人们辅助 AI 决策时的判断。通过在一个复杂的社会决策环境下进行随机在线实验来探索如何支持关键使用的训练,我们发现通过在这种情况下为参与者提供加速的、低成本的机会来练习 AI 辅助决策,新手参与者开始表现出与经验工作者相似的与 AI 不一致的模式。参与者对其 AI 辅助决策的解释的定性研究表明,他们参考了 AI 模型无法获取的定性案例叙述,以学习何时(不)依赖 AI 预测。我们的研究结果为实现真实世界的 AI 辅助决策的培训提出了新的问题和设计思路。
Aug, 2023
本研究针对高维数据集中插值不可能发生的情况,从理论和实践角度出发,反驳了插值和外推能够准确指示泛化性能的说法,并挑战了当前插值 / 外推定义在泛化性能中的有效性。
Oct, 2021
生成模型可以通过实现真实数据生成过程的因果图结构向未被观测环境进行预测,然而,由于因果图结构节点通常未被观测,这导致了模型的超参数化和因果结构的不可识别性,此文章开发了一种理论框架,通过一个弱化的可识别性标准解决这种情况,并展示经典的随机梯度下降可能阻碍模型对未被观测数据的预测能力,建议在训练期间明确地强制执行机制的独立性,使用真实世界数据训练的深度生成模型实验证明这些看法,并展示这些模型的外推能力如何被利用。
Apr, 2020
本研究通过向 Transformer 架构添加两种归纳学习偏差来探究个体的外推能力,结果表明,这些偏差对大型神经网络模型有帮助,也揭示了人类的归纳性学习偏差的类型。
Apr, 2023