数据高效的通用值函数评估的自适应探索
本研究探索了使用 GVF 和有向探索策略结合探索和辅助任务学习的方法来提高强化学习中的样本效率,实验表明该方法在不同大小的网格导航任务中表现出优异的性能。
Mar, 2022
使用基于强化学习的预测方法研究实际饮用水处理厂,描述数据集中的挑战和使用离线数据预训练临时差异学习代理的方法,并证明实时适应预测对于实际非平稳的大容量系统至关重要。
Dec, 2023
本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF),该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型,可以高效地捕获多个控制器的状态访问度量,并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。
Jun, 2023
本文提出了基于参数的值函数(PBVFs)的方法,它们可以在不同的策略之间进行泛化,并首次展示了如何使用 PBVF 推导出新颖的离线策略梯度定理,然后采用蒙特卡罗或时间差分方法训练 PBVF 并基于此演算出离线策略梯度(off-policy policy gradient)算法,结果表明学习到的 PBVF 能够零 - shot 学习新的超越训练阶段任何策略的好策略,另外文章也在离散和连续控制任务上进行实验,表现得与最先进的方法类似。
Jun, 2020
提出了一种无模型强化学习算法,由于乐观原则和最小二乘价值迭代算法的启示,通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索,在估计乐观值函数的同时引入了一种乐观的奖励采样过程,并证明了当数值函数可由函数类 \mathcal {F} 表示时,该算法实现了最坏情况下的遗憾度量边界,并在已知的难度探索任务上进行了实证评估。
Jun, 2021
本研究提出了一种名为 WVF 的目标导向通用价值函数,旨在将任务解决方法与该代理人环境下的其他目标达成任务相结合,证明了这一方法可以提高学习和规划效率。
Jun, 2022
本文提出一种基于一般价值函数逼近的强化学习算法,目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似,该算法将实现后悔界,为实际中使用的算法提供一个框架来证明其有效性。
May, 2020
通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。
Jan, 2019
通过探索和学习在环境中掌握多个任务是强化学习中一个重要的挑战。本文介绍了一种无需奖励的强化学习算法,其中的关键思想是通过不确定性感知的内在奖励来探索环境,并通过不同样本的不确定性加权学习处理异质性不确定性,通过在 DeepMind Control Suite 的各个领域和任务上的实验结果表明,该算法优于或与现有的无监督强化学习算法的性能相当。
Jun, 2024