关键词episodic markov decision processes
搜索结果 - 4
- 无模型的后验采样通过学习率随机化
介绍了一种名为随机化 Q 学习(RandQL)的新型基于后验抽样的模型无关算法,用于减小判断失误在分节马尔可夫决策过程(MDPs)中的影响,分析了它在标表和非标表度量空间设置下的性能,表明其乐观探索方法优于现有的方法。
- ICML多智能体强化学习:异步通信和线性函数逼近
该论文研究了多智能体强化学习在时序马尔科夫决策过程的情景下的应用,提出了一种基于价值迭代的算法,实现异步通信并保证协作的优势,证明了,当使用线性函数逼近时,该算法的遗憾值可达到 $\tilde {\mathcal {O}}(d^{3/2} - AAAI具有延迟反馈的对抗性马尔可夫决策过程学习
本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习,表现出基于策略优化的新算法,在完全信息反馈下实现了接近最优的高概率后悔情况,同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。
- 风险敏感的强化学习:在遗憾中实现近乎最优的风险 - 样本平衡
本文研究了未知转移核情况下的风险敏感强化学习问题,提出了两种模型无关的算法,Risk-Sensitive Value Iteration (RSVI) 和 Risk-Sensitive Q-learning (RSQ),证明了它们的近似最优