针对居住能源管理的Go-Explore算法

Jan, 2024

Go-Explore for Residential Energy Management

Junlin Lu, Patrick Mannion, Karl Mason

TL;DR利用Go-Explore算法来解决居民能源管理问题中的节约成本任务，并与众所周知的强化学习算法相比，取得了高达19.84%的改进。

Abstract

reinforcement learning is commonly applied in residential energy management, particularly for optimizing energy costs. However, RL agents often face challenges when dealing with deceptive and sparse rewards in th

发现论文，激发创造

Go-Explore：一种解决困难探索问题的新方法

采用记忆、回归与模拟学习等技术结合的算法Go-Explore在复杂探索问题上有了显著提高，打破了Montezuma's Revenge甚至超越了Pitfall的人类高分纪录，为强化学习领域提供了新思路。

Jan, 2019

连续状态空间中的显式探索-利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

先回报，后探索

Go-Explore算法通过显式地记住有前途的状态并在有意探索之前首先回到这些状态的简单原则，直接解决了探索中的“detach”和“derailment”问题，并在所有难探索游戏上超越了现有技术，并在稀疏奖励抓取放置机器人任务上展示了其实际潜力。

Apr, 2020

基於強化學習的探索方法綜述

本文介绍了关于（连续）强化学习中现代探索方法的调查，以及探索方法的分类。

Sep, 2021

何时出发，何时探索：后探索对内在动机的益处

本文对Go-Explore论文中未解决的问题进行了系统研究，通过对一系列MiniGrid环境的实验发现，采用后探索策略能够显著提高强化学习的性能，并利用新的自适应方法进一步提高了效果，证明了自适应后探索是强化学习探索研究的一个有前途的方向。

Mar, 2022

免细胞潜在探索

该论文利用学习到的潜在表示, 引入了基于“Go-Explore”范例的“潜在Go-Explore”(LGE)方法, 该方法将普适应用于强化学习探索任务中, 并在多个具有遥远探索难度的环境中展现比当下最佳算法更具鲁棒性和优异性能,例如Montezuma's Revenge环境。

Aug, 2022

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用2倍样本，比模型自由方法少用200倍样本。

Oct, 2022

一个家庭群集的强化学习能源协调在真实世界中的实施

通过观测室内数据，我们展示了一种实施简便且易于扩展的强化学习方法，该方法在一个真实世界的场景中验证了基于层次控制系统的协调策略的可行性，并展示了满意的电能追踪效果。

Oct, 2023

可解释的基于强化学习的家庭能源管理系统：使用可微分决策树

随着能源转型的持续进行，需求侧灵活性已成为现代电力网络的一个重要方面，以提供网络支持并实现可持续能源的进一步整合。除了传统能源源之外，住宅部门是另一个主要且大量未开发的灵活性源，这是由于太阳能光伏、家庭电池和电动汽车的增加而推动的。然而，解锁住宅灵活性是具有挑战性的，因为需要一个能够有效管理家庭能源消耗并在各种不同的房屋之间具有可扩展性的控制框架，并维持用户舒适度。我们旨在解决这个具有挑战性的问题，并引入一种基于可微分决策树的强化学习方法。该方法将数据驱动的强化学习的可扩展性与（可微分的）决策树的可解释性相结合。这导致了一个可以在不同房屋之间轻松适应并向最终用户解释的简单控制策略，进一步改善用户接受度。作为概念验证，我们使用家庭能源管理问题来分析我们的方法，将其与商业可用的基于规则的基准控制器和标准神经网络强化学习控制器的性能进行比较。通过这项初步研究，我们展示了我们提出的方法的性能与标准强化学习控制器相当，相较于基准控制器，在每日成本节约方面表现优异，节约率提高了大约20%，同时又易于解释。

Mar, 2024

探索前进：在深度强化学习中利用探索进行泛化

提供一种新的方法Explore-Go，通过增加代理训练的状态数目，从而有效地增加代理的起始状态分布，以提高强化学习中的泛化性能。

Jun, 2024