average reward | BriefGPT - AI 论文速递

关键词average reward

搜索结果 - 5

具有平均奖励的不安定强盗：打破统一全局吸引子假设
本研究提出了一种基于模拟的框架，可以将单臂策略转换成适用于 N 臂问题的策略，并提供了在离散和连续时间框架下的计算上最优结果，且不需要 UGAP 假设。
PDFa year ago
AAAI鲁棒平均奖励马尔科夫决策过程
本篇论文研究鲁棒平均回报 MDP 问题，旨在找到一种策略，使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题，证明了当折扣因子趋近于 1 时，鲁棒折扣价值函数收敛于鲁棒平均回报，并设计了鲁棒动态规
PDF2 years ago
基于规约的平均回报 MDP 的近似最优策略学习
本研究考虑采用生成模型（模拟器）以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。
PDF2 years ago
折扣强化学习不是优化问题
折扣强化学习与函数逼近在连续任务的控制中本质上不兼容，无法通过常规优化表达，使用函数逼近时不存在最优策略。因此，我们鼓励研究者采用严格的优化方法，如最大化平均奖励，来解决连续任务的强化学习问题。
PDF5 years ago
ICML廉价强盗
本文提出了 CheapUCB 算法，该算法用于最大化学习的累积奖励，同时保证感知成本最小。此外，作者还就一类有效维度为 d 的图谱建立了一个渐进的下界，即谱臂老虎机的累积遗憾为 Ω(T sqrt d)。
PDF9 years ago