May, 2024

基于混沌的深度增强学习与 TD3 算法

TL;DR混沌增强学习(Chaos-based reinforcement learning,CBRL)是一种通过内部混沌动力学驱动探索的方法,本研究将最新的深度强化学习算法之一,即双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradients,TD3),引入到 CBRL 中并进行验证。TD3 在简单目标达成任务中作为学习算法有效,CBRL 代理可在学习过程中自主抑制探索行为并在环境变化时恢复探索,而且研究还发现强混沌性对于探索与开采之间的灵活切换产生负面影响。