Dec, 2020

无奖励评估代理

TL;DR通过在预先收集的智能体行为数据集上回溯计算潜在目标来加速内在目标的开发,并对七个智能体、三款 Atari 游戏和 3D 游戏 Minecraft 进行了输入熵、信息增益和授权效应的研究,发现所有三个内在目标与人类相似性度量的相关性都比任务奖励更强,特别是输入熵和信息增益与人类相似性的相关性比任务奖励更强,这表明可以利用内在目标来设计表现类似于人类玩家的智能体。