May, 2024

智能采样:用于改进集成强化学习的自注意力和自助法

TL;DR我们提出了一种新颖的方法,旨在增强集成 Q 学习的样本效率。我们的方法将多头自注意力集成到集成 Q 网络中,同时通过引导集成所吸收的状态 - 动作对来提升性能,从而改进了原始的 REDQ 和其变体 DroQ,并有效减小了 Q 函数集合的平均归一化偏差和标准偏差。重要的是,即使在低更新 - 数据比率的情况下,我们的方法也表现出色。值得注意的是,我们提出的方法的实现非常直观,只需要对基本模型进行最小程度的修改。