强化学习中的抽象理论
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
本文提出一种新的方法,通过共享基于低维学习的环境编码来明确地连接无模型和有模型的强化学习方法,该方法能够捕捉到总结性抽象,同时具有模块化的特点,因此具有良好的泛化能力和计算效率,并在较小的潜在状态空间中进行计划。此外,此方法还能恢复足够低维的环境表示,从而为可解释的人工智能、探索和迁移学习开辟了新的策略。
Sep, 2018
本研究探讨了使用状态抽象来减轻计划和强化学习算法中的组合爆炸问题。我们研究了近似状态抽象的理论保证和在各种环境中的有效性。结果表明,使用近似抽象可以减少任务复杂度和行为最优性的损失。
Jan, 2017
本研究因 RL 作为推理方法的短处而对其进行澄清,RL 代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的 K-learning 等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
技能在分层强化学习中通过临时抽象旨在提高强化学习性能。我们首次提供对确定性技能在确定性稀疏奖励环境和有限动作空间中的效用进行准确描述的研究,理论和实证结果表明,状态解决方案的压缩性较低的环境中强化学习的技能优势较小,技能对于探索比现有经验的学习更具益处,使用宏动作等表达能力有限的技能可能会降低强化学习性能。我们希望这些发现可以指导自动技能发现的研究,并帮助强化学习从业者在何时如何使用技能上做出更好的决策。
Jun, 2024
文章介绍了学习体系如何获得和利用抽象概念结构的能力,并提供了一种最小体系结构的示例,展示了这些抽象概念结构在先前获得知识的应用中的操作有效性。
Oct, 2019