Jun, 2023

上下文马尔可夫决策过程中的策略梯度方法步长学习

TL;DR本文提出一种基于元强化学习的新框架meta-MDP,用于解决强化学习中精细的特定超参数选取问题,通过动态推荐不同策略和任务的步长,实现了在异构环境下选择自适应学习率的优势。