BriefGPT.xyz
Nov, 2017
基于终止策略的学习选择
Learning with Options that Terminate Off-Policy
HTML
PDF
Anna Harutyunyan, Peter Vrancx, Pierre-Luc Bacon, Doina Precup, Ann Nowe
TL;DR
将行动选项的学习过程视为多步离线学习的一部分,提出了一种新算法Q(beta),可以在任意结束条件下学习最优解,从而解决了行动选项长度对学习效率和解决方案质量的矛盾。
Abstract
A
temporally abstract action
, or an option, is specified by a
policy
and a
termination condition
: the
→