Dec, 2023

有效性视野解释随机环境中的深度强化学习表现

TL;DR解释为什么深度强化学习算法在实践中表现良好,介绍一种新的强化学习算法 SQIRL,它通过随机探索收集数据,并在这些数据上执行有限次数的值迭代来学习接近最优的策略。