Jun, 2024

如何在 Q 学习中对连续状态 - 动作空间进行离散化:一种符号控制方法

TL;DR基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战,并利用符号模型表示行为关系,提出了一种解决方案,该方案能够获得编码最优策略的两个 Q 表,并探讨了空间抽象参数与 Q 值损失之间的相关性,并通过两个案例研究展示了该方法的工程应用价值。