BriefGPT.xyz
Feb, 2016
使用谱方法强化学习POMDPs
Reinforcement Learning of POMDP's using Spectral Methods
HTML
PDF
Kamyar Azizzadenesheli, Alessandro Lazaric, Animashree Anandkumar
TL;DR
提出了一种新的强化学习算法用于部分可观察的马尔可夫决策过程(POMDP),该算法基于谱分解方法,学习参数通过固定政策生成的轨迹,并通过优化oracle返回最优的无记忆规划策略,算法可以有效缩放观测和行动空间的维度。
Abstract
We propose a new
reinforcement learning
algorithm for
partially observable markov decision processes
(POMDP) based on
spectral decomposition
→