Feb, 2024

自进化自编码嵌入 Q 网络

TL;DR在连续决策任务的领域中,强化学习代理的探索能力对于通过与环境的交互获得高回报至关重要。为增强这一关键能力,我们提出了 SAQN,一种新颖的方法,其中包含了一个自进化自编码器(SA)和一个 Q 网络(QN)。在 SAQN 中,随着代理对环境的探索,自进化自编码器架构会自适应和进化。这种进化使得自编码器能够在潜在空间中有效捕捉各种原始观测,并对其进行有效表示。通过利用从编码器生成的潜在空间中提取的解缠态,QN 被训练以确定改善回报的最优动作。在自编码器架构的进化过程中,采用了一种偏差 - 方差调节策略,以使强化学习代理产生最佳响应。该策略包括两个关键组成部分:(i)促进节点的增长以保留先前获得的知识,确保对环境的丰富表示,以及(ii)修剪贡献最小的节点,以保持更可管理和可跟踪的潜在空间。在三个不同的基准环境和一个真实的分子环境上进行了广泛的实验评估,结果显示了所提出的 SAQN 在性能上明显优于现有技术。这些结果突显了自进化自编码器及其与 Q 网络合作在处理连续决策任务中的有效性。