BriefGPT.xyz
Ask
alpha
关键词
competence parameter
搜索结果 - 1
无穷时间 MDP 的离线数据高效在线学习:一种贝叶斯方法
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法,其中假设有一个离线数据集作为起点,由一个未知能力水平的专家生成,我们展示了如果学习代理建模了专家使用的行为策略,它可以在最小化累计遗憾方面表现得更好,我们建立了一个前瞻性依赖先验的
→
PDF
9 months ago
Prev
Next