BriefGPT.xyz
Ask
alpha
关键词
long-term reward
搜索结果 - 3
平均奖励马尔科夫决策过程中的批量策略学习
研究提出了一种基于无限时段马尔可夫决策过程的批量(线下)策略学习问题,生成最大长期平均奖励的策略,并利用双重稳健估计量和优化算法实现了半参数效率计算。该研究还通过模拟研究和移动健康推广体育锻炼的分析来展示估算策略的性能。
PDF
4 years ago
ICML
强化学习中的公正性
研究强化学习中的公平性问题,探讨算法选择对环境和未来奖励的影响,提出公平性约束条件,尽管该条件与最优策略一致,但满足公平性的学习算法必须花费时间指数级才能达到对最优策略的非平凡逼近,提出在近似公平性约束下的多项式时间算法,从而建立了精确公平
→
PDF
8 years ago
休息和不休息赌博机的在线学习
本文研究了涉及休息和不休息的多臂赌博机和多次游戏的在线学习问题,在每个时间步骤,用户可以玩 M 支手臂,其目标是决定每一步要播放哪些 K 支手臂,以在一系列试验中最大化其长期奖励,尤其与机会式频谱接入(OSA)的应用相关。
PDF
13 years ago
Prev
Next