稳健建筑控制的主动强化学习

Dec, 2023

Active Reinforcement Learning for Robust Building Control

Doseok Jang, Larry Yan, Lucas Spangher, Costas Spanos

TL;DR在建筑控制领域，本研究提出了一种新颖的 UED 算法 ActivePLR，通过使用具有不确定性感知的神经网络结构，在 RL 代理的能力极限处生成新的训练环境，并能够优先考虑在基准环境中的性能，表明 ActivePLR 能够在最小化能源消耗的同时最大化居住者舒适度方面优于最先进的 UED 算法。

Abstract

reinforcement learning (RL) is a powerful tool for optimal control that has found great success in Atari games, the game of Go, robotic control, and building optimization. RL is also very brittle; agents often overfit to their training environment and fail to generalize to new settings

reinforcement learning unsupervised environment design robust rl building control activeplr energy usage

发现论文，激发创造

回放引导的对抗环境设计

本文介绍了一种基于无监督环境设计的强化学习范例，叫做双重课程设计，其中使用了具有优先级的等级重放采样和对抗性策略改进方式，并在零样本迁移任务中得到了比以往更好的效果。

Oct, 2021

开放式世界中的学习课程

该论文介绍了一种称为无监督环境设计（UED）的方法，通过自动生成无限的训练环境序列或课程以匹配或超过真实世界的复杂性，从而实现深度强化学习代理在鲜有环境示例中表现出显著改进的鲁棒性和泛化能力，这些自生成的环境课程为不断生成和掌握自主设计的额外挑战的开放式学习系统提供了有希望的路径。

Dec, 2023

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

工业环境中部署强化学习的架构

本论文介绍了一个基于 OPC UA 的运营技术意识强化学习体系结构，扩展了标准的 RL 设置，将其与数字孪生的设置相结合，与此同时，定义了一个 OPC UA 信息模型，允许进行通用的即插即用式交换 RL agent。通过解决玩具示例，本文演示和评估了体系结构，证明了该结构可用于使用真实控制系统确定最优策略。

Jun, 2023

RRLS：强化学习套件

我们引入了 RRLS（Robust Reinforcement Learning Suite），这是一款基于 Mujoco 环境的基准套件，为训练和评估提供了六个连续控制任务，旨在标准化强化学习任务，促进可重现和可比较的实验，并为最新的最先进贡献提供使用实例。

Jun, 2024

使用倒置强化学习训练智能体

本文提出了一种名为 UDRL 的方法，该方法利用监督学习技术学习行为，不需要奖励预测或寻找最优策略，通过训练智能体遵循指令而不是预测奖励的方法，可以在多个情境环境下产生一系列有用的行为，并且在某些任务上其表现甚至超越了传统基准算法，并提出了期望奖励最大化以外的替代方法在训练有用的自主代理方面具有重要作用。

Dec, 2019

用学习对手稳定非监督环境设计

训练任务、无监督环境设计、PARED、最新方法、开放式强化学习训练。

Aug, 2023

ReLBOT：一种在智能建筑中最小化强化学习风险的迁移学习方法

本文提出了一种名为 ReLBOT 的新技术，使用深度强化学习中的转移学习，从现有的优化智能建筑中转移知识以降低新委托的建筑中强化学习代理的热身期的不良影响，最大程度地优化了能源消耗效果。

Apr, 2023