利用隐空间动态模型的信息最大化探索

NIPSApr, 2018

利用隐空间动态模型的信息最大化探索

Information Maximizing Exploration with a Latent Dynamics Model

Trevor Barron, Oliver Obst, Heni Ben Amor

TL;DR本文提出一种基于模型行动选择的强化学习方法，该方法在价值函数的潜在特征空间中学习动态模型，实现机器人和环境的动态表示和模型自我激励，从而解决传统方法当中的探索与利用权衡问题，并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能，重点是改善探索。

Abstract

All reinforcement learning algorithms must handle the trade-off between exploration and exploitation. Many state-of-the-art deep

reinforcement learning exploration exploitation model-based bayesian

发现论文，激发创造

利用深度预测模型在强化学习中激励探索

本文提出一种使用神经网络参数化的模型学习探索奖励的方法，可以用于具有复杂、高维状态空间的任务，同时在 Atari 游戏领域中获得了最一致的改进。

Jul, 2015

连续状态空间中的显式探索 - 利用算法

提出了一种基于模型的强化学习算法，该算法包括明确的探索和利用阶段，并适用于大规模或无限状态空间，该算法维护一组与当前体验一致的动态模型，并通过查找在状态预测之间引起高度分歧的策略来进行探索，然后利用精细化的模型或在探索过程中收集的体验，我们证明，在实现和最优规划的假设下，我们的算法能够用多项式结构复杂度度量在很多自然设置中得到完美的政策，并给出了一个使用神经网络的实用近似，并证明了它在实践中的性能和样本效率。

Nov, 2019

基于模型内在动机的离策略学习与主动在线探索

通过引入预测模型和离线学习元素，结合一个实用性较高的终端价值函数，本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差，我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联，使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明，我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能，尤其是在稀疏奖励的情况下。

Mar, 2024

基于模型的贝叶斯探索

本文论述的是如何在强化学习的算法中基于概率分布估算每个行动的信息价值，并选择能够平衡探索与利用的最佳行动。

Jan, 2013

想象价值梯度：基于模型的策略优化和可转移的潜在动态模型

本文研究如何通过模型驱动的增强学习方法促进任务转移，提出了基于动作条件的预测模型学习算法，用于机器人操作任务中的策略优化并在转移学习场景中取得了显著的学习速度提升。

Oct, 2019

高效探索的隐式生成模型

本文介绍了一种基于模型不确定性估计的机制，通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率，并将隐式的生成建模方法用于训练。实验结果表明，与其他探索方法相比，该算法在提高数据效率方面表现出色。

Nov, 2019

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

强化学习的潜在变量表示

本文提出了一种基于深度潜变量模型的策略学习框架，在理论上和实践中检验了潜变量模型在优化强化学习中发挥的作用，同时提出了一种计算高效的规划算法，并在多个基准测试中证明了其优越性能。

Dec, 2022

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

潜在状态边际化：改善探索的低成本方法

本文介绍了一种称为 SMAC 的算法，它使用最大熵强化学习框架中的潜在变量策略来提高探索和稳健性能力，并在连续控制任务上进行实验验证。

Oct, 2022