Nov, 2014

压缩与控制

TL;DR本文提出了一种新的信息论政策评估技术,该技术将任何压缩或密度模型转化为相应的值估计,研究了该技术在 Atari 2600 视频游戏中的应用,发现该技术提供足够准确的价值估计来有效地进行政策控制,并指出该技术在规模化问题上具有潜在的应用前景。