BriefGPT.xyz
大模型
Ask
alpha
关键词
average reward
搜索结果 - 5
具有平均奖励的不安定强盗:打破统一全局吸引子假设
本研究提出了一种基于模拟的框架,可以将单臂策略转换成适用于 N 臂问题的策略,并提供了在离散和连续时间框架下的计算上最优结果,且不需要 UGAP 假设。
PDF
a year ago
AAAI
鲁棒平均奖励马尔科夫决策过程
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规
→
PDF
2 years ago
基于规约的平均回报 MDP 的近似最优策略学习
本研究考虑采用生成模型(模拟器)以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。
PDF
2 years ago
折扣强化学习不是优化问题
折扣强化学习与函数逼近在连续任务的控制中本质上不兼容,无法通过常规优化表达,使用函数逼近时不存在最优策略。因此,我们鼓励研究者采用严格的优化方法,如最大化平均奖励,来解决连续任务的强化学习问题。
PDF
5 years ago
ICML
廉价强盗
本文提出了 CheapUCB 算法,该算法用于最大化学习的累积奖励,同时保证感知成本最小。此外,作者还就一类有效维度为 d 的图谱建立了一个渐进的下界,即谱臂老虎机的累积遗憾为 Ω(T sqrt d)。
PDF
9 years ago
Prev
Next