对比例子为基础的控制
本文介绍了一种强化学习的算法,可以更加方便地让用户指定任务,通过提供成功结果的示例来代替复杂且需要技术专业知识的奖励函数。该方法不需要中间奖励函数的学习,仅仅依靠转移和成功结果来学习价值函数,从而需要调整的超参数较少并且代码读起来更加简单易懂。实验结果表明,此方法优于先前学习显式奖励函数的方法。
Mar, 2021
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习。
Oct, 2021
本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离线 RL 方法。
Nov, 2022
介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数,称为时间差分模型,它可以利用状态转移的丰富信息来非常高效地学习,同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明,在一系列连续控制任务中,TDM 相比最先进的模型无关和模型相关方法提供了实质性的改进。
Feb, 2018
通过引入预测模型和离线学习元素,结合一个实用性较高的终端价值函数,本文研究了如何在连续控制任务中实现样本高效的探索能力。通过利用潜在状态空间内的前向预测误差,我们得出了一种不引入额外参数的固有奖励。该奖励与模型不确定性有强烈的关联,使得智能体能够有效地克服渐进性能差距。通过广泛的实验证明,我们的方法在与以往工作的比较中表现出有竞争力的甚至更优异的性能,尤其是在稀疏奖励的情况下。
Mar, 2024
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法,即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数,在每次迭代中,我们的算法最大化这个获取函数,选择提供最多信息的状态 - 动作对被查询,从而获得高效的数据驱动强化学习方法;在多个连续控制问题上实验,相比于基于模型或无模型的 RL 基线方法,本文方法学习出的最优策略所需样本量减少了 5-1000 倍。
Dec, 2021
利用约束的方法从专家数据中学习变迁动力学的可靠估计来改进线下强化学习,减少策略差异,并结合不确定性估计推断出产生更高回报的行动部分排序和规划更安全和更具信息的策略。
Aug, 2023
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023