AI 辅助教育中任务难度的揭示

Jan, 2022

Revelation of Task Difficulty in AI-aided Education

Yitzhak Spielberg, Amos Azaria

TL;DR本文旨在研究揭示任务难度对学生表现、动力、自我效能和主观任务价值的影响。研究者以火柴棒命题解决问题的实验为基础，讨论了如何通过 AI 系统预测和决定何时揭示任务难度等方法优化学生学习体验。

Abstract

When a student is asked to perform a given task, her subjective estimate of the difficulty of that task has a strong influence on her performance. There exists a rich literature on the impact of perceived task difficulty on performance and →

perceived task difficulty revealing true task difficulty student performance motivation ai-aided education

发现论文，激发创造

关于困难感知的研究：人类与人工智能之间的差异

本文研究了人工智能与人类交互中的感知难度，探讨了如何确切地评估每个代理人的能力，并提出了一种实验设计，以全面检验两个代理人的感知难度，为更好地设计这样的系统做出贡献。

Apr, 2023

迷失于能力中：评估解释对用户对视觉问答系统的心智模型的影响

我们研究了当一个 AI 系统遇到一项不能完美执行的任务时，用户如何看待其限制，并且提供解释是否有助于用户构建系统能力和限制的适当心理模型。通过控制视觉输入，在视觉问答解释任务中，我们操控 AI 系统的限制：在推理过程中，该系统可以处理全彩色或灰度图像。我们的目标是确定参与者是否能够察觉到该系统的限制。我们假设解释会使有限的 AI 能力对用户更加透明。然而，我们的研究结果显示解释没有这种效果。与其实际表现无关，解释通常会增加用户对系统能力的认知。

Jun, 2024

在评估可解释 AI 系统时，代理任务和主观度量可能会误导

本研究通过在线实验和现场思考研究评估了两种当前常用的 XAI 系统评估技术，并发现代理任务和主观度量在实际决策任务中均未能预测评估结果，这表明当前的评估方法可能错误地拖慢了我们开发可靠执行出色的人工智能与人类团队的进步。

Jan, 2020

测量新颖反应的难度

本文提出一种评估 AI 系统应对开放世界新颖问题难度的方法，以帮助研究人员系统地训练其系统，并衡量其表现。

Jul, 2022

认知知识的认识：人类能力的错觉会妨碍对人工智能系统的适当依赖

本文通过实证研究（N = 249），探讨了 DKE 是否会影响人们适当地依赖 AI 系统，以及探讨这种影响是否可以通过教程干预和利用基于逻辑单元的解释来缓解。我们发现，自我高估的参与者往往会表现出对 AI 系统的不足依赖，这阻碍了最佳团队表现。然而，教程干预对于高估自我评估的参与者来说非常有效，可以帮助他们校准自我评估并促进适当的依赖。本研究对设计解决用户认知偏差、促进在 AI 系统上适当依赖的方法具有广泛的启示性意义。

Jan, 2023

强化学习辅导在数学任务中更好地支持了表现较差者

本文介绍了利用深度强化学习提供个性化教育支持的方法，通过解释人工智能工具来提取可解释的教育策略。结果表明，该策略对于那些最需要支持的学生有最大的益处。

Apr, 2023

人工智能协作：AI 委派对人类任务执行和满意度的影响

在一项 196 名参与者的实验研究中，我们发现，无论人类是否意识到辅助作业的人工智能模型，通过代理任务来协同完成工作可以提高任务的表现和满意度，同时提高自我效能感，这为 AI 担负更多的管理责任是人 - AI 协作的有效形式提供了初步证据。

Mar, 2023

响应偏移范例量化人类对人工智能推荐的信任

本研究通过一般目的的人工智能 - 人类交互方式，定量测量了 AI 推荐对人类决策的影响，从而代表了人类对 AI 的信任程度，该范例可定量比较 XAI/IAI 方法对最终用户的影响，打开了学习信任的 (机器) 可能性。

Feb, 2022

捕获人类对人工智能的心理模型：一种项目反应理论方法

本研究提出了一种基于项目反应理论的框架来模拟人们对人工智能队友的感知，并使用实验数据测试研究问题，结果表明人们对人工智能代理的性能期望显著高于其他人，并具有更小的问题类型差异。

May, 2023

通过考察测试集难度理解深度学习性能：一项心理测量案例研究

研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响，通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度，实验结果发现难度对于测试的结果有重要影响，同时易于学习的实例被模型学得更快。

Feb, 2017