Jun, 2018

强化学习之旅:从连续控制视角出发

TL;DR综述了强化学习的优化和控制方法,重点关注连续控制应用。通过一个最简单和最研究的问题 - 线性二次调节器(LQR)的案例研究,描述了从学习理论和控制理论的融合可以提供 LQR 性能的非渐进特征,并表明这些特征趋向于匹配实验行为。同时,探讨了设计与不确定环境安全可靠交互的学习系统所面临的挑战以及强化学习和控制领域所提供的工具可能如何应对这些挑战。