Dec, 2022

学习潜在表示以共同适应人类

TL;DR论文介绍了一种算法形式化的机器人与动态人类相互协调的方法,使用机器人的低级状态、行为和奖励,结合高级别的人类政策和政策动态来实现,该方法在博弈和建造任务中进行了实际人类协作实验,表明比基线方法更好地学习了与不完美、嘈杂、时变代理协调。