利用人工智能改善在大型部分可观测环境中的人类规划
将生理计算融入混合主动型人机交互系统中,通过将实时特征作为人体状态观察纳入决策系统,为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而,应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题,需要采用概率框架,考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明,可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型,并使用离线强化学习方法来解决该模型。在本研究中,我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效,而且还能增强人机团队的整体任务效果。值得注意的是,由于固定的数据集可能无法完整表示复杂的随机过程,因此我们提出了一种方法来考虑模型不确定性,从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验,结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略,可以在多样化参与者之间进行推广,并考虑风险敏感的指标。
Feb, 2024
该研究基于情境评估,提出了一种新颖的解决方案,可以在人机团队合作中帮助机器人预测和模拟人类决策,并通过沟通协调达到信念一致,提高问题解决效率和鲁棒性。
Oct, 2022
首次将人工智能用于项目选择决策,在真实世界中发现并教授优化了人们的决策策略。结果表明,该方法能够改善类似真实世界项目选择的自然环境中的人类决策,为在真实世界中应用策略发现提供了初步的方向。
Jun, 2024
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本篇论文提出了一种针对自主导航任务的端到端方法,包括学习强有力的应急计划以及将其与分层规划器相结合,以应对其信念突然改变的情况。研究表明,该方法能够在部分可观察的随机环境中实现健壮性安全行为,并能很好地推广至训练过程中未见过的环境动态。
Apr, 2022
强化学习从人类反馈中的过去分析假设人类完全观察能力。当人类反馈仅基于部分观察时会发生什么?我们正式定义了两种失败情况:欺骗和过度合理化。通过将人类建模为对轨迹的信念的 Boltzmann - 理性,我们证明了在什么条件下 RLHF 可以保证导致会欺骗地夸大其表现、过度合理化其行为或两者兼而有之。为了帮助解决这些问题,我们从数学上描述了环境的部分可观测性如何转化为学习回报函数中的(缺乏)模糊性。在某些情况下,考虑部分可观测性可以从理论上恢复回报函数和最优策略,而在其他情况下存在不可避免的模糊性。我们警告不要盲目将 RLHF 应用于部分可观测的环境,并提出研究方向以帮助应对这些挑战。
Feb, 2024
本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法,用于处理部分可观察环境下的控制系统策略生成,将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明,该方法在性能表现上优于六种当下的深度 RL 技术。
Jun, 2022
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017