offline policy evaluation | BriefGPT

关键词offline policy evaluation

搜索结果 - 9

OPERA：多个估计器加权汇总的离线自动策略评估
提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的
PDFa month ago
离线强化学习：状态聚合和轨迹数据的作用
离线强化学习中，对于具有价值函数的可实现性但不具备 Bellman 完备性的问题，我们提供了关于离线策略评估任务的负回答，并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性，即使原始 MDP 中的集中度系数较小且离线数据可接受
PDF3 months ago
上下文强化学习中基于一般协变量转移的分布稳健策略评估
我们介绍了一种分布健壮的方法，用于在背景变量移位下增强上下文赌博的离线策略评估的可靠性。通过应用分布健壮回归技术改进条件奖励分布的估计，我们开发出一套综合的策略价值评估器，并通过理论分析证明了该方法相对于传统方法在偏移较大时的有限样本上限优
PDF6 months ago
ICML学习 Bellman 完整表示以进行离线策略评估
该研究提出了一种名为 “BCRL” 的算法，用于学习线性 Bellman 完备的表示，并用于离线策略评估，同时在图像基础的连续控制任务中表现出较好的性能。
PDF2 years ago
离线随机最短路径：学习、评估与优化
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习，提出基于简单值迭代的算法来解决离线策略评估和学习任务，并分析了这些算法的强实例相关界限。
PDF2 years ago
AAAI拟合 Q 评估的超参数选择方法及误差保证
该研究针对 FQE 算法的超参数调优问题，提出了一种基于近似超参数选择框架的优化方法，该方法不需要超参数就可以定义一种量化且可解释的最优化标准，并验证理论误差界与实际观察的匹配。
PDF2 years ago
深度离线策略评估的仪器变量回归
该研究探讨了在采用深度强化学习中估计状态行为值函数（Q 函数）时出现的混淆问题，以及如何运用因果推断学中的工具来解决混淆问题，并提供了一些性能良好的解决方案。
PDF3 years ago
在时间均匀、无奖励、任务不可知的情况下进行最优均匀 OPE 和基于模型的离线强化学习
本研究利用基于模型的方法研究了离线策略评估问题的统一框架，对于一些有充分理论支持的离线任务提供了最优学习方案，研究了统一收敛的统计上限，并在局部统一收敛方面建立了统一高效的分析工具。
PDF3 years ago
强化学习离线策略评估中的近最优可证明一致收敛
该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。
PDF4 years ago