BriefGPT.xyz
Ask
alpha
关键词
efficient exploration
搜索结果 - 22
通过随机化价值函数实现泛化和探索
本文提出了一种新的 RL 算法 RLSVI,针对线性参数化的价值函数进行探索和泛化,相较于 Boltzmann 或 epsilon-greedy 探索,RLSVI 实现了显著的效率提高,并在 tabula rasa 的学习环境下展现出接近最
→
PDF
10 years ago
通过后验抽样实现(更)高效的强化学习
该研究提出了一种用于强化学习的后验采样方法(PSRL),通过对一个先验分布进行贝叶斯更新来在已知的一系列时段内实现对 Markov 决策过程的优化,从而达到高效的探索。该算法在时间,状态和行动空间上有明显的性能优势,并具有一定的先验知识编码
→
PDF
11 years ago
Prev
Next