学习排序的悲观离线策略优化
多目标优化的离线优化通过现有策略收集的数据进行优化;我们提出了一种悲观估计方法,基于倒数离差分数,可以轻松地插入现有的超体积计算公式进行优化。该方法不仅在理论和实验上改进了朴素的倒数离差分数估计方法,还可以通过策略梯度进行优化,在我们的所有实验中表现良好。
Oct, 2023
本文主要针对离线强化学习中的价值函数方法,提出了一种名为 POPO 的悲观离线策略优化算法,它学习了一种悲观的价值函数以获取强策略,相比于多个最先进的算法,在高维状态和动作空间中表现出色。
Dec, 2020
本文介绍了一种称为 `pessimistic policy optimization` 的算法,用于处理 contextual bandits 中的策略优化问题,并提供了对于这种方法的最佳统计估计。该算法运用监督学习的方法,在离线交互日志的基础上进行训练,非常适用于处理连续和离散行为空间的问题。
Jun, 2023
研究通过行为策略收集的数据集来学习优化策略的离线强化学习算法,并针对潜在状态的影响所产生的混淆偏差和最优策略与行为策略之间的分布转换问题,提出了代理变量悲观策略优化(P3O)算法。
May, 2022
通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明了标准的 IW 规范化技术的有效性。
Jun, 2024
本研究提供并使用实际数据和标准测试平台,基于广告展示探索了历来研究最新的无政策评估和学习方法(如双重优化、POEM 和基于回归基线的监督学习),结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。
Dec, 2016
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(LS),该估计器对大的重要性权重进行对数平滑。LS 的界证明比所有竞争者都紧,自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了 LS 的多样性和有利性能。
May, 2024
我们提出了一个简单而有效的基于模型的离线强化学习框架 ORPO,通过提倡更多的离群值扩展,基于乐观的 MDP 生成乐观模型推演用于悲观的离线策略优化,并在理论上证明 ORPO 训练出的策略在线性 MDP 中具有下界,实验结果显示我们的框架在广泛应用的基准测试中显著优于 P-MDP 基线,尤其在需要泛化的问题上表现出明显优势。
Jan, 2024