提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中取得了优异的表现。
Feb, 2022
本文介绍了一种新的离线强化学习算法 ICQ,它通过只信任数据集中的状态 - 动作对来有效减轻外推误差,并将其扩展到多智能体任务中,表现出明显的性能优势。
Jun, 2021
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择:只要动力学模型能够准确地表示给定策略访问的状态 - 操作对的动态特性,就可能近似该特定策略的值。我们在 LQR 设置下分析了我们的下限,并在一组 D4RL 任务的策略选择上展示了有竞争力的性能下限。
Jan, 2023
通过在在线强化学习算法的策略更新中添加行为克隆项并规范化数据,在保持简单性的同时,最大限度地提高了运行效率,从而实现了与现有离线 RL 算法相当的性能。
本文提出了一种基于不确定性量化和有效任务置信推断的新方法框架 IDAQ,该方法通过产生正分布情境来解决离线学习数据集和在线自适应之间的转换奖励分布漂移,实现了元 - 强化学习的任务自适应和较高的性能表现。
May, 2023
提出一种名为 MIR2 的方法,通过在常规情景训练策略并最小化互信息作为鲁棒正则化来提高多智能体强化学习的鲁棒性,实验证明 MIR2 在各种情况下都能比现有的 max-min 优化方法展现出更大的对抗性。
Oct, 2023
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
Jun, 2024
本研究提出一种信息理论规则化方法,以学习多智能体强化学习中的合作和竞争策略,结果在两个简单的非对称信息博弈中表明,使用我们提出的方法学习到的合作(竞争)策略会带来更多(更少)的奖励。
Aug, 2018
本文提出了一种基于模型的离线策略优化算法 (MOPO),通过将模型地图上未知点处的即时报酬设置为高风险,从而优化模型训练过程中的代理策略,以解决离线数据分布发生漂移的问题,并在现有数据集和具有挑战性的连续控制任务中获得了最佳表现。
May, 2020