BriefGPT.xyz
Ask
alpha
关键词
empirical behavior
搜索结果 - 2
ICML
优先级时间差分学习
在 TD 学习中,提出一种重新加权状态的方法,在更新方程中考虑到其重要性和价值估计的可靠性,证明此方法在线性函数逼近下收敛,并在实验中与其他 TD 方法进行比较。
PDF
3 years ago
ICLR
DeepAveragers:通过求解派生的非参数 MDP 实现离线强化学习
研究了一种离线强化学习方法,在静态数据集的基础上通过有效解决有限表示 MDPs 的方式进行。该方法可应用于任何学习表示,并具有支持多种解决方案、零成本调整等特性;其主要贡献是引入了 Deep Averagers with Costs MDP
→
PDF
4 years ago
Prev
Next