Feb, 2024
优化最小后悔度的无监督环境设计
Refining Minimax Regret for Unsupervised Environment Design
Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows, Minqi Jiang...
TL;DR无监督环境设计中,使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练,通过算法 ReMiDi 实现回报最小化,克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。