BriefGPT.xyz
Ask
alpha
关键词
pessimistic approaches
搜索结果 - 1
离线强化学习中的选择性不确定性传播
研究了有限时间内的离线强化学习问题,提出了一种基于动作影响估计的算法,可在统计上简单实例上胜过传统的悲观方法。
PDF
a year ago
Prev
Next