利用人工智能改善在大型部分可观测环境中的人类规划

Feb, 2023

利用人工智能改善在大型部分可观测环境中的人类规划

Leveraging AI to improve human planning in large partially observable environments

Lovis Heindrich, Saksham Consul, Falk Lieder

TL;DR该研究开发了第一个元推理算法来发现资源合理策略，将其应用于人类在部分可观察环境下的规划中，并通过智能教师教授学习所得的策略，以提高人类在复杂、部分可观察的序列决策问题中的规划能力。

Abstract

AI can not only outperform people in many planning tasks, but also teach them how to plan better. All prior work was conducted in fully observable environments, but the real world is only partially observable. To bridge this gap, we developed the first →

metareasoning resource-rational intelligent tutor partially observable environments planning

发现论文，激发创造

离线风险敏感的部分可观察性强化学习以提升人机协作性能

将生理计算融入混合主动型人机交互系统中，通过将实时特征作为人体状态观察纳入决策系统，为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而，应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题，需要采用概率框架，考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明，可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型，并使用离线强化学习方法来解决该模型。在本研究中，我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效，而且还能增强人机团队的整体任务效果。值得注意的是，由于固定的数据集可能无法完整表示复杂的随机过程，因此我们提出了一种方法来考虑模型不确定性，从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验，结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略，可以在多样化参与者之间进行推广，并考虑风险敏感的指标。

Feb, 2024

基于明确人类心态推理的鲁棒人机协同任务规划

该研究基于情境评估，提出了一种新颖的解决方案，可以在人机团队合作中帮助机器人预测和模拟人类决策，并通过沟通协调达到信念一致，提高问题解决效率和鲁棒性。

Oct, 2022

可解释规划

该论文探讨了人工智能的交互问题，提出了一种基于模型的 AI 规划方法，以实现人类与智能系统的有效沟通和协同解决问题的目标。

Sep, 2017

利用人类引导的因果知识实现更一般化的机器人任务规划

通过人类引导的因果知识的使用，作者在语言接口和机器人上开发和测试了一种方法，可以使机器人在新环境中获得泛化解决方案。

Oct, 2021

利用自动策略发现教导人们如何选择更好的项目

首次将人工智能用于项目选择决策，在真实世界中发现并教授优化了人们的决策策略。结果表明，该方法能够改善类似真实世界项目选择的自然环境中的人类决策，为在真实世界中应用策略发现提供了初步的方向。

Jun, 2024

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

层次性应急规划在随机的、部分可观测的环境下实现更安全的自主驾驶

本篇论文提出了一种针对自主导航任务的端到端方法，包括学习强有力的应急计划以及将其与分层规划器相结合，以应对其信念突然改变的情况。研究表明，该方法能够在部分可观察的随机环境中实现健壮性安全行为，并能很好地推广至训练过程中未见过的环境动态。

Apr, 2022

当人类评估者在奖励学习中遇到局部可观测性的挑战

强化学习从人类反馈中的过去分析假设人类完全观察能力。当人类反馈仅基于部分观察时会发生什么？我们正式定义了两种失败情况：欺骗和过度合理化。通过将人类建模为对轨迹的信念的 Boltzmann - 理性，我们证明了在什么条件下 RLHF 可以保证导致会欺骗地夸大其表现、过度合理化其行为或两者兼而有之。为了帮助解决这些问题，我们从数学上描述了环境的部分可观测性如何转化为学习回报函数中的（缺乏）模糊性。在某些情况下，考虑部分可观测性可以从理论上恢复回报函数和最优策略，而在其他情况下存在不可避免的模糊性。我们警告不要盲目将 RLHF 应用于部分可观测的环境，并提出研究方向以帮助应对这些挑战。

Feb, 2024

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

基于数据驱动的模仿学习规划

利用数据驱动的模仿学习框架，通过模仿一个清晰的预测者，解决了机器人规划中的优化问题，从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证，包括真实的无人机实验，并且表现优于现有的算法。

Nov, 2017