Jul, 2022

通过学习识别少而关键的状态进行一般政策评估和改进

TL;DR在深度神经网络上,使用 Parameter-Based Value Functions 和 Policy Evaluation Networks 的 Actor-Critic 框架,学习单一价值函数来评估和改进 RL 策略,并通过学习少量的探测状态和行动映射来提取关于环境的重要抽象知识。