Mar, 2023

使用离线强化学习学习影响人类行为

TL;DR本篇论文提出了一种离线强化学习方法,通过利用多样化的人机交互行为,在不需要在线训练或高保真模拟器的情况下,学习一些对人类行为产生积极影响的策略,从而提高人类在合作任务中的表现。该方法成功在 Overcooked 协作基准域中提高了人类的表现。