BriefGPT.xyz
May, 2012
马尔可夫决策过程中的安全探索
Safe Exploration in Markov Decision Processes
HTML
PDF
Teodor Mihai Moldovan, Pieter Abbeel
TL;DR
本文提出了一种基于安全的强化学习探索方法,通过限制注意力在一组安全的最小子集中,实现安全探索策略的优化,该方法在以前提出的大多数探索方法中可兼容,并在火星地形探索问题中得到了验证。
Abstract
In environments with uncertain dynamics
exploration
is necessary to learn how to perform well. Existing
reinforcement learning
algorithms provide strong
→