提升长延迟强化学习与辅助短延迟任务
本文提出了一种扩展Deep Deterministic Policy Gradient(DDPG)的算法Asynchronous Episodic DDPG(AE-DDPG),通过异步学习和组合应用周期控制和动态噪声等技术,该算法在连续控制任务中取得更好的结果,具有更高的奖励和更高的数据利用效率。
Mar, 2019
本文提出一种基于Hierarchical Reinforcement Learning的框架,通过设置辅助奖励来适应下游任务,同时保持奖励设计的通用性。这种辅助奖励可实现高级策略和低级技能的高效、同时学习,无需使用特定任务的知识。实验结果表明,相比Mujoco领域中其他最先进的HRL方法,我们的算法有显著的性能优势,并且发现我们算法训练的低级和高级策略都是可转移的。
Oct, 2019
本研究研究探讨在强化学习中,作为表示学习的辅助任务(auxiliary tasks)的目标策略(target policy)对主任务(main task)学习的影响,实证结果表明,贪心策略的辅助任务往往有效,而在所有策略中,甚至包括均匀随机策略,通常都比基线更有效。与其他策略相比,主任务策略往往不太有效。
Apr, 2022
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
使用后验采样算法处理强化学习中的延迟反馈问题,通过线性函数逼近在减少样本复杂性的同时实现更好的性能表现,并在未知随机延迟的情况下具有最坏情况遗憾上界。
Oct, 2023
在标准强化学习设置中,通过立即获得行为后效果的反馈是常见的假设;然而,由于物理限制,在实践中这种假设可能并不成立,可能严重影响强化学习算法的性能。本文关注部分可观测环境中观察延迟的处理。我们提出利用过去观测和学习动态的世界模型来处理观察延迟。通过将延迟型POMDP降低为具有世界模型的延迟型MDP,我们的方法可以有效处理部分可观察性,在现有方法在可观察性降低时实现次优性能甚至迅速降级的情况下表现出更好的性能。实验证明,我们的方法之一可以比天真的基于模型的方法的表现高出30%。此外,我们首次在基于视觉输入的延迟环境上评估了我们的方法,展示了延迟感知的视觉观察强化学习。
Mar, 2024
在延迟观测环境中,通过包含延迟窗口内的动作来增加状态,以恢复马尔科夫特性,从而实现强化学习,但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能,本工作引入了一种称为变分延迟策略优化(VDPO)的新框架,将延迟强化学习重新构建为一个变分推断问题。该问题进一步被建模为一个两步迭代优化问题,其中第一步是在无延迟环境中进行时序差分学习,而第二步是行为克隆,其效率比时序差分学习要高得多。我们不仅从样本复杂度和性能方面进行了理论分析,而且还通过在MuJoCo基准测试中的实验证明,VDPO可以与最先进的方法达到一致的性能,并且样本效率显著提高(样本量减少了约50%)。
May, 2024
提出了一种名为DEER(Delay-resilient Encoder-Enhanced RL)的框架,用于增强可解释性并解决随机延迟问题,通过使用预训练编码器将延迟状态及其不同延迟导致的可变长度的过去动作序列映射到隐藏状态,从而有效地缓解了强化学习中的延迟挑战。在延迟情境下,训练好的编码器可以与标准强化学习算法无缝集成,并通过适应原始算法的输入维度来增强解决延迟问题的能力。通过在Gym和Mujoco环境上进行广泛实验,结果证明DEER在固定和随机延迟设置下优于现有的强化学习算法。
Jun, 2024
通过辅助任务蒸馏,我们提出了一种增强学习(RL)方法,使其能够通过从辅助RL任务中提取行为来解决长期规划的机器人控制问题。AuxDistill通过并行进行辅助任务的多任务RL,并通过加权蒸馏损失将这些辅助任务中的行为转移到主任务上,实现了这一目标。我们证明了AuxDistill能够从环境奖励中学习一个对挑战性的多阶段物体重新排列任务进行像素到动作策略的学习,无需演示、学习课程或预训练技能。AuxDistill在Habitat物体重新排列基准测试中取得了比之前最先进的基准线高2.3倍的成功率,并超过使用预训练技能和专家演示的方法。
Jun, 2024