BriefGPT.xyz
Dec, 2009
利用预测状态表示关闭学习和规划循环
Closing the Learning-Planning Loop with Predictive State Representations
HTML
PDF
Byron Boots, Sajid M. Siddiqi, Geoffrey J. Gordon
TL;DR
本文提出并演示了一种精确学习环境模型的新算法,该算法从行动-观测对的序列中直接学习此类环境的模型,并通过在学习的模型中进行规划并恢复一个接近原始环境的最优策略实现从观测到行动的闭环。
Abstract
A central problem in
artificial intelligence
is that of
planning
to maximize future reward under
uncertainty
in a partially observable env
→