Feb, 2024

优化最小后悔度的无监督环境设计

TL;DR无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。