鲁棒可预测控制
使用信息熵的目标函数和可压缩动作序列作为先验,提出了一种新的强化学习算法,能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好,并且产生出强大的信息正则化代理,能够对噪声观测进行鲁棒控制和执行开环控制。
May, 2023
本文提出了一种新的信息论政策评估技术,该技术将任何压缩或密度模型转化为相应的值估计,研究了该技术在 Atari 2600 视频游戏中的应用,发现该技术提供足够准确的价值估计来有效地进行政策控制,并指出该技术在规模化问题上具有潜在的应用前景。
Nov, 2014
本文提出了一种基于强化学习的方法,用于合成具有丰富感知模态(例如视觉或深度)的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作,以实现控制动作仅依赖任务相关信息。实验结果表明,我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。
Feb, 2020
研究如何通过限制收集到的信息,学习可重用行为作为默认策略,从而加速和规范学习过程,同时探讨了该策略与信息瓶颈方法和变分 EM 算法之间的联系,并在离散和连续动作领域提出了经验结果。
May, 2019
本文介绍了一种基于 Bellman 备份的批量强化学习算法,它采用一种更加保守的更新策略来提高输出策略的性能保证,并通过演示 MDP 示例和在标准基准测试中的实证比较来突出了我们保守更新的必要性和以前算法和分析的局限性。
Jul, 2020
使用自监督的潜在状态一致性损失提出了一种有效的表示学习方法,通过量化潜在表示以保留表示的秩,命名为 iQRL:隐式量化强化学习,可与任何无模型强化学习算法兼容,并在 DeepMind 控制套件的连续控制基准中表现优异,超过其他最近提出的表示学习方法。
Jun, 2024