Feb, 2020

RIDE: 面向程序生成环境的奖励驱动探索

TL;DR本文提出一种新的内在奖励方式,鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动,这种方法在稀疏回报和面向过程环境中的探索中更加高效。