BriefGPT.xyz
Ask
alpha
关键词
tabular mdps
搜索结果 - 2
具有对数最坏情况遗憾的量子强化学习的可证明高效探索
我们提出了一种新的量子强化学习算法,并证明了对于 tabular MDPs and linear mixture MDPs,该算法的最坏情况后悔度是多项式级别的,是量子 RL 在线探索具有可证明的对数最坏情况后悔度的第一项研究。
PDF
a year ago
ICML
政策证书:朝着可追溯的强化学习
提出了输出策略证书的强化学习算法,这些证书限制了下一个 episode 策略的次优性和回报,并保证了算法策略和证书质量的理论分析,同时这个算法是第一个实现了 minimax-optimal PAC bounds 的,能够在一些情况下与现有的
→
PDF
6 years ago
Prev
Next