针对居住能源管理的Go-Explore算法
采用记忆、回归与模拟学习等技术结合的算法Go-Explore在复杂探索问题上有了显著提高,打破了Montezuma's Revenge甚至超越了Pitfall的人类高分纪录,为强化学习领域提供了新思路。
Jan, 2019
提出了一种基于模型的强化学习算法,该算法包括明确的探索和利用阶段,并适用于大规模或无限状态空间,该算法维护一组与当前体验一致的动态模型,并通过查找在状态预测之间引起高度分歧的策略来进行探索,然后利用精细化的模型或在探索过程中收集的体验,我们证明,在实现和最优规划的假设下,我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策,并给出了一个使用神经网络的实用近似,并证明了它在实践中的性能和样本效率。
Nov, 2019
Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则,直接解决了探索中的“detach”和“derailment”问题,并在所有难探索游戏上超越了现有技术,并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。
Apr, 2020
本文对Go-Explore论文中未解决的问题进行了系统研究,通过对一系列MiniGrid环境的实验发现,采用后探索策略能够显著提高强化学习的性能,并利用新的自适应方法进一步提高了效果,证明了自适应后探索是强化学习探索研究的一个有前途的方向。
Mar, 2022
该论文利用学习到的潜在表示, 引入了基于“Go-Explore”范例的“潜在Go-Explore”(LGE)方法, 该方法将普适应用于强化学习探索任务中, 并在多个具有遥远探索难度的环境中展现比当下最佳算法更具鲁棒性和优异性能,例如Montezuma's Revenge环境。
Aug, 2022
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用2倍样本,比模型自由方法少用200倍样本。
Oct, 2022
通过观测室内数据,我们展示了一种实施简便且易于扩展的强化学习方法,该方法在一个真实世界的场景中验证了基于层次控制系统的协调策略的可行性,并展示了满意的电能追踪效果。
Oct, 2023
随着能源转型的持续进行,需求侧灵活性已成为现代电力网络的一个重要方面,以提供网络支持并实现可持续能源的进一步整合。除了传统能源源之外,住宅部门是另一个主要且大量未开发的灵活性源,这是由于太阳能光伏、家庭电池和电动汽车的增加而推动的。然而,解锁住宅灵活性是具有挑战性的,因为需要一个能够有效管理家庭能源消耗并在各种不同的房屋之间具有可扩展性的控制框架,并维持用户舒适度。我们旨在解决这个具有挑战性的问题,并引入一种基于可微分决策树的强化学习方法。该方法将数据驱动的强化学习的可扩展性与(可微分的)决策树的可解释性相结合。这导致了一个可以在不同房屋之间轻松适应并向最终用户解释的简单控制策略,进一步改善用户接受度。作为概念验证,我们使用家庭能源管理问题来分析我们的方法,将其与商业可用的基于规则的基准控制器和标准神经网络强化学习控制器的性能进行比较。通过这项初步研究,我们展示了我们提出的方法的性能与标准强化学习控制器相当,相较于基准控制器,在每日成本节约方面表现优异,节约率提高了大约20%,同时又易于解释。
Mar, 2024