基于模型的方法提高强化学习效率：借助专家观察

Feb, 2024

基于模型的方法提高强化学习效率：借助专家观察

A Model-Based Approach for Improving Reinforcement Learning Efficiency Leveraging Expert Observations

Erhan Can Ozcan, Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis

TL;DR该研究通过采用专家观察（不涉及具体专家行为信息）来改进深度强化学习模型的样本效率，并通过提出一种自动调整增强损失函数中各组成部分权重的算法，证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。

Abstract

This paper investigates how to incorporate expert observations (without explicit information on expert actions) into a deep reinforcement learning setting to improve →

expert observations deep reinforcement learning sample efficiency augmented policy loss continuous control tasks

发现论文，激发创造

基于模型内在动机的离策略学习与主动在线探索

通过引入预测模型和离线学习元素，结合一个实用性较高的终端价值函数，本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差，我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联，使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明，我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能，尤其是在稀疏奖励的情况下。

Mar, 2024

基于丰富观测的 PAC 强化学习

本研究提出一种新的强化学习模型，将上下文逐步演化到顺序决策制定，通过分析最小二乘值淘汰算法表明，在某些特定情形，强化学习方法的范数较优行为可以在多项式时间内学习。

Feb, 2016

基于观测的内部模型用于奖励塑造

本研究提出一种新的强化学习方法，即基于内部模型的奖励估计方法，通过预测给定专家状态分布的预测模型来估计奖励，进而直接从专家操作的视频中成功训练出良好的策略。

Jun, 2018

MoDem: 利用演示加速视觉基于模型的强化学习

利用演示可以显著提高模型学习效率，在这项工作中，我们确定了利用演示进行模型学习的关键因素，即策略预训练，有针对性的探索和演示数据的过采样，这三个阶段构成了我们的基于模型的 RL 框架。

Dec, 2022

具有不完美专家演示的贝叶斯 Q-learning

本文提出一种使用少量专家演示来加速 Q-learning 的算法，通过减少对专家数据的依赖程度和逐步降低不相关数据的使用，实现了对数据的更高效利用，实验结果表明该方法在大多数情况下可以比 Hester 等人的演示深度 Q-learning 方法获得更好的结果。

Oct, 2022

强化学习中的无模型主动探索

采用信息论的观点，我们研究强化学习中的探索问题，并提出了一种新颖的无模型解决方案，通过推导实例特定的下界以及最优的探索策略，我们衍生出一种基于集成模型的无模型探索策略，适用于表格和连续马可夫决策过程，数值结果表明我们的策略能够比最先进的探索方法更快地找到高效的策略。

Jun, 2024

面向参数变化系统的模型自适应强化学习控制中的样本高效迁移

本文利用模型控制的思想解决了强化学习算法的样本效率问题，并通过四个基准实例验证了其性能。

May, 2023

基于模型集合的效率高的强化学习算法：探索与利用

本文提出了模型集成的方法 MEEE，其中含有一些特殊的探索和利用策略，解决了现有方法中存在的问题，包括计划探索、评估学习模型的不确定性以及更加合理利用学习模型等。在多项持续控制基准测试中，该方法表现优于其他无模型和有模型的现有方法，尤其在样本复杂度方面表现更加卓越。

Jul, 2021

从像素学习与专家观察

使用专家观察作为强化学习智能体的中间视觉目标，可以帮助解决稀疏奖励问题，从而提高性能并减少专家动作的使用。

Jun, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016