该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用,结合两种不同风格的方法,提出了一个特殊类型的双重稳健方法,解决了偏见问题,同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。
Feb, 2020
离线策略优化,随机情境赌博问题,重要性加权估计,隐性探索估计,PAC-Bayesian 策略类的改进
Sep, 2023
本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
Feb, 2021
该研究提出 QMIX 算法的限制防止了其表示值函数,引入加权方案来恢复表示并提高性能
Jun, 2020
本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应 Q 迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用
提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。
Oct, 2021
本文提出了一种基于价值感知的重要性权重方法,可用于增强学习的离线预测模型,并在实验中进行了评估。
Jun, 2023
Meta-Q-Learning (MQL) 是一种新的离线策略算法,它建立在三个简单的思想之上:使用过去轨迹的表示作为上下文变量可以使 Q-learning 与最先进的元 RL 算法相竞争;最大化训练任务的平均奖励的多任务目标是元训练 RL 策略的有效方法;从元训练回放缓冲区中获取的过去数据可以通过非策略更新来适应新任务,MQL 借鉴了势估计的思想,从而增加了可用于适应的数据量。实验表明,与元 RL 的最新技术相比,MQL 在标准的连续控制基准测试中表现得更好。
Sep, 2019
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明,与 IQL 和 IDQL 相比,我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题,在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中,我们的方法明显优于 IQL 和 IDQL。
May, 2024
研究了量子博弈和其他类别的半定博弈中基于标量、基于回馈的学习问题。介绍了一套适用于不同信息框架的最小信息矩阵乘法权重(3MW)方法,并设计了适用于半定几何问题的零阶梯度采样器。展示了确定性回馈和随机回报可观察的 3MW 方法的收敛性,以及对满足一定一阶稳定条件的全部均衡点局部收敛的正则化变体。
Nov, 2023