Feb, 2024

离线风险敏感的部分可观察性强化学习以提升人机协作性能

TL;DR将生理计算融入混合主动型人机交互系统中,通过将实时特征作为人体状态观察纳入决策系统,为自主任务分配提供了有价值的优势。通过在代理之间智能地分配任务来减轻人员认知负担。然而,应对具有不同生理和行为测量的多样化人员池的挑战较大。为了解决这个问题,需要采用概率框架,考虑到人的状态的内在不确定性和部分可观察性。最近的研究表明,可以从以前收集的经验数据集中学习部分可观察马尔科夫决策流程模型,并使用离线强化学习方法来解决该模型。在本研究中,我们不仅强调部分可观察表示和生理测量能够改进人员状态估计和绩效,而且还能增强人机团队的整体任务效果。值得注意的是,由于固定的数据集可能无法完整表示复杂的随机过程,因此我们提出了一种方法来考虑模型不确定性,从而实现风险敏感的序列决策。在模拟机器人远程操作环境下对 26 名参与者进行了实验,结果获得了该方法的实证证据。获得的自适应任务分配策略导致的得分显著高于用于收集数据集的策略,可以在多样化参与者之间进行推广,并考虑风险敏感的指标。