May, 2016

价值强化学习防止引线欺骗

TL;DR本论文的主要研究领域是针对人工智能代理制定良好的目标,并提出一种被称为价值强化学习的替代方案,它使用奖励信号来学习效用函数,解决了机器学习中所面临的wireheading问题。