Feb, 2024

基于上下文感知探索的快速端对端适应

TL;DR我们提出了基于历史上下文的同伴识别奖励,这个奖励根据学习智能体对同伴的行为模式识别得有多好来奖励智能体。我们的方法在多样的测试平台上进行评估,包括竞争性(Kuhn Poker)、合作性(PO-Overcooked)或混合(Predator-Prey-W)游戏,展示了比现有方法更积极的探索行为,实现了更快的适应和更好的结果。