Jul, 2022

无监督环境设计中的随机不确定性建模

TL;DRSAMLR 是一种适应性课程学习方法,可以在避免课程诱导的协变量漂移的情况下优化环境序列,保证在真实环境下最大化效用函数,实现强化学习中的最小后悔策略。