离线风险敏感的部分可观察性强化学习以提升人机协作性能

Feb, 2024

离线风险敏感的部分可观察性强化学习以提升人机协作性能

Offline Risk-sensitive RL with Partial Observability to Enhance Performance in Human-Robot Teaming

Giorgio Angelotti, Caroline P. C. Chanel, Adam H. M. Pinto, Christophe Lounis, Corentin Chauffaut...

TL;DR将生理计算融入混合主动型人机交互系统中，通过将实时特征作为人体状态观察纳入决策系统，为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而，应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题，需要采用概率框架，考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明，可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型，并使用离线强化学习方法来解决该模型。在本研究中，我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效，而且还能增强人机团队的整体任务效果。值得注意的是，由于固定的数据集可能无法完整表示复杂的随机过程，因此我们提出了一种方法来考虑模型不确定性，从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验，结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略，可以在多样化参与者之间进行推广，并考虑风险敏感的指标。

Abstract

The integration of physiological computing into mixed-initiative human-robot interaction systems offers valuable advantages in autonomous task allocation by incorporating real-time features as human state observa

physiological computing human-robot interaction autonomous task allocation partially observable representations risk-sensitive metrics

发现论文，激发创造

部分可观察的强化学习何时不可怕？

该论文介绍了应用于部分可观测的情况下的强化学习模型，探讨了在一些特殊情况下该模型的使用，提出了一种通过乐观估计与极大似然估计相结合的简单算法，能够保证在这些特殊情况下有多项式样本复杂度可行的方法。

Apr, 2022

可验证的表示与高效规划用于部分可观察强化学习

本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题，并通过对表示视图的利用提出了一种可行的强化学习算法，可在部分观测输入下实现比现有算法更高的性能，推动可靠强化学习在实际应用中的应用。

Nov, 2023

机器人中的部分可观察马尔可夫决策过程：综述

这篇综述文章研究多种机器人领域中使用部分可观察马尔可夫决策过程（POMDP）的数学模型和算法，分析它们的特点，并提供适用的决策任务的关键任务特性。

Sep, 2022

离线强化学习与人类反馈的部署

提出一种基于人类监督的强化学习在线部署框架，包含两种方法：一是通过模型选择和上置信区间算法自适应选择候选离线强化学习模型进行部署，二是在监督信号到达时在线微调模型。通过实证验证，这些方法有效地应用于机器人运动控制和交通信号控制任务中。

Mar, 2023

由学习的环境模型指导的部分可观测性下的强化学习

本文提出了一种基于 Q-learning 和 IoAlergia 的强化学习方法，用于处理部分可观察环境下的控制系统策略生成，将 RL 与学习环境模型相结合以提供抽象的环境状态获取。实验结果表明，该方法在性能表现上优于六种当下的深度 RL 技术。

Jun, 2022

机器人控制的 DRL 过程中的部分可观测性

本文研究了 Deep Reinforcement Learning 在机器人控制任务中的应用，特别是在部分可观性条件下，比较了 TD3、SAC 和 PPO 算法的表现，并提出了改进部分可观性下 TD3 和 SAC 算法鲁棒性的多步版本算法。

Sep, 2022

透过部分监督强化学习学习后见可观测部分可解释策略

通过融合监督学习和无监督学习，部分监督强化学习（PSRL）框架能够提供更可解释的策略和丰富的潜在洞察力，从而在奖励和收敛速度等方面保持并大大超越传统方法的性能基准。

Feb, 2024

面对混淆因素的悲观主义：部分可观察马尔可夫决策过程中可证明高效的离线强化学习

研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法，并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题，提出了代理变量悲观策略优化（P3O）算法。

May, 2022

部分可观察马尔可夫决策过程中的动态深度强化学习算法

通过将动作序列纳入来解决部分可观察马尔可夫决策过程，本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络，结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。

Jul, 2023

利用人工智能改善在大型部分可观测环境中的人类规划

该研究开发了第一个元推理算法来发现资源合理策略，将其应用于人类在部分可观察环境下的规划中，并通过智能教师教授学习所得的策略，以提高人类在复杂、部分可观察的序列决策问题中的规划能力。

Feb, 2023