Nov, 2022

探究强化学习智能体在个性化任务中的策略熵

TL;DR本研究旨在考察强化学习系统在个性化环境中的行为,说明不同类型的学习算法所产生的策略熵的差异。我们证明了在训练过程中,优化策略代理经常具有低熵策略,从而导致代理优先考虑某些动作而避免其他动作。相反,我们还展示了 Q - 学习代理很少受到这种行为的影响,并且通常在整个训练过程中保持高熵策略,在实际应用中这通常更可取。我们提供了广泛的数值实验证明和理论证明来表明,这些熵差异是由所采用的学习类型引起的。