Apr, 2022

基于最优反应贝叶斯强化学习的贝叶斯自适应POMDP应用于半人马

TL;DR本文提出了一种新的人工智能决策模型——Centaurs,旨在辅助有限理性的人类做出更好的决策。基于Bayesian最佳反应模型,我们建立了一种序列博弈模型,使得机器能够识别人类的目标和约束,并对其进行帮助。通过模拟实验,我们发现当Centaurs具备对人类行为的预测和分析能力时,它能够推断出人类的局限,并引导其做出更好的决策。除此之外,我们也探究了AI-human interaction中的新型权衡问题。