Feb, 2024

程序化强化学习的理论基础

TL;DR强化学习是学习未知随机环境中最佳策略的算法,本文的目标是通过理论研究,首次回答关于编程式强化学习的好策略类别、最佳策略的规模以及如何学习它们等问题。