off-policy evaluation | BriefGPT

关键词off-policy evaluation

搜索结果 - 100

正向和反向状态抽象用于策略离线评估
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估，并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件，进而提出一种新颖的两步骤程序，将原始状态空间顺序投影到较小的空间，从而大大简
PDF7 days ago
AutoOPE：自动离策择估计器选择
自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。
PDF8 days ago
基于已记录的人类反馈的离线策略评估
从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值，并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性，并进行了实证评估，证明我们的估计器可预测评估政策的绝对值、
PDF20 days ago
潜在 MDP 中的强化学习是可行的：通过离线策略评估实现在线保证
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法，并建立了新的离线评估引理和 LMDPs 的新覆盖系数，通过这些结果可以推导出一种乐观探索算法的近似最优
PDFa month ago
ICLR核度量学习：用于确定性强化学习策略的样本内离策略评估
在连续动作空间中，通过使用优化的核度量，通过样本内学习的离策略评估可以显著提高准确性。
PDFa month ago
交叉验证的离策略评估
本文研究了离策略评估中的估计器选择和超参数调优问题，并展示了如何使用交叉验证来解决这一问题，从而验证了交叉验证在离策略评估中是可行的。
PDFa month ago
IJCAI超参数优化在离策略学习中甚至可能是有害的及其应对方法
基于偏置记录数据准确估计反事实政策效果的评估在许多情况下不仅用于评估决策政策的价值，还用于搜索大候选空间中的最佳超参数。本研究探讨了离策略学习中的超参数优化任务，并提出了简单而高效的校正方法来解决相关问题。实证调查证明了我们提出的超参数优化
PDF2 months ago
离线政策评估方法的数据污染攻击
通过利用来自鲁棒统计学的影响函数构建最大化策略价值估计误差的扰动，我们对现有的离线策略评估方法的鲁棒性进行了广泛实验，并发现当受到数据污染攻击时，这些方法很容易生成具有大误差的价值估计，这些发现对使用离线策略评估方法得出的策略价值的可靠性产
PDF3 months ago
估计记录策略的双重稳健离线策略评估
该研究介绍了一种新的双鲁棒离策评估（OPE）估计器，用于未知的日志策略和价值函数情况下，能估计产生半参数下界的最小渐近方差。
PDF3 months ago
关于未来依赖值函数中未来与历史的诅咒对于离策略评估的影响
我们研究部分可观察环境中的离策略评估（OPE），旨在开发其保证不依赖于时间跨度的估算器。我们发现了与部分可观察马尔可夫决策过程（POMDP）结构相关的新覆盖假设和具有互补性质的新算法。
PDF4 months ago
大动作空间的贝叶斯离策评估和学习
在互动系统中，我们引入了一个统一的贝叶斯框架来捕捉动作之间的相关性，通过结构化和信息化的先验概率实现了更样本高效的离策略评估和学习，同时保持了计算效率。通过引入基于贝叶斯指标的在线贝叶斯赌博师，我们分析了 sDM 在离策略评估和学习中的性能
PDF4 months ago
马尔可夫决策过程中的弱分布重叠下的离策略评估
在马尔可夫决策过程的顺序忽略性下，具有两重鲁棒性的方法在离线策略评估中具有良好的性能，通过引入一种截断两重鲁棒估计器，该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。
PDF5 months ago
通过优化概括方法评估推荐策略的离策略算法
我们开发了一种用于预测多维动作的选择问题中离线策略评估的新方法，称为潜在 IPS（LIPS），它通过在低维抽象空间中优化抽象来最小化 LIPS 的偏差和方差，从而显著减小 IPS 的方差并避免对奖励函数结构进行过多的限制性假设，通过实证评估
PDF5 months ago
AAAI基于近似贝叶斯计算的概率离线策略排序
使用专家数据来表征候选政策以及近似其整个性能后验分布，从而在最差、最好和平均情况下对候选政策进行排名的概率离线政策排名（POPR）框架。通过基于能量的近似贝叶斯计算（ABC）方法来估计后验分布，并通过伪似然度量来提高抽样效率。POPR-EA
PDF7 months ago
在情境强化学习中进行的离线策略评估的边际密度比
在本文中，我们介绍了一种新的基于边际比率的 Off-Policy Evaluation (OPE) 估计器，用于 contextual bandits，旨在通过关注结果边际分布的变化来减少方差。我们通过严格的理论分析证明了 MR 估计器相对
PDF7 months ago
评估和基准化离策略评估的风险收益权衡
评估线下记录数据所使用的反事实政策的有效性，并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡，该指标已被集成到开源软件 SCOPE-RL 中，实证研究对不同评估器和强化学习任务进行了全面的基准测试
PDF7 months ago
SCOPE-RL：一个用于离线强化学习和离线策略评估的 Python 库
SCOPE-RL 是一款面向离线强化学习（offline RL）、离策略评估（off-policy evaluation）和选择（selection）的全面开源 Python 软件，通过集成政策学习和评估等两个关键方面，提供了灵活和完整的离
PDF7 months ago
离线策略评估何时有用？—— 基于数据的视角
通过数据集进行离线策略评估是重要但具有挑战性的，本研究提出了一种数据中心的框架用于评估其问题，并且通过对医疗数据集的实证分析验证了其能够评估机器学习和人工专家策略。
PDF7 months ago
基于状态 - 动作相似性的离线策略评估
该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率，证明了这种度量可以限制导致的 OPE 估计误差，并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学
PDF8 months ago
半离线策略评估的反事实增强重要性采样
在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间
PDF8 months ago