Oct, 2019

优势加权回归:简单且可扩展的离线策略强化学习

TL;DR该论文旨在开发一种简单且可扩展的增强学习算法,使用标准的监督学习方法作为子程序。提出的 AWR 方法只需几行代码即可实现,能够适应连续和离散行动,其性能与许多最先进的 RL 算法相当,无需其他环境交互即可从纯静态数据集中获取更有效的策略。