Oct, 2023

自我确认变压器:多智能体强化学习中本地一致的在线适应

TL;DR离线强化学习中,通过自我确认损失来解决在线非稳态对手对于离线转换器策略的影响问题,并证明该策略能够适应非稳态对手在线,并获得比传统转换器和离线多智能体强化学习基准更高的收益。