BriefGPT.xyz
Ask
alpha
关键词
dac-mdp
搜索结果 - 1
ICLR
DeepAveragers:通过求解派生的非参数 MDP 实现离线强化学习
研究了一种离线强化学习方法,在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示,并具有支持多种解决方案、零成本调整等特性;其主要贡献是引入了 Deep Averagers with Costs MDP
→
PDF
4 years ago
Prev
Next