Apr, 2018

走向具备常识的符号强化学习

TL;DR本论文提出了一种名为 Symbolic Reinforcement Learning with Common Sense (SRL+CS) 的算法,它在奖励分配和 Q 值聚合时结合了常识原则,使得在转移学习和零-shot 转移学习等方面具有更好的泛化和特化表现。实验结果表明,SRL+CS 算法比 Q-learning 和 DSRL 算法更为快速且更准确,是近乎完美零-shot 转移学习在强化学习领域的首次尝试。