Sep, 2020

行动与感知的差异最小化

TL;DR为感知-行动智能体设计多样性的目标函数,从狭窄到广泛探索领域特定奖励和通过对输入序列的潜变量模型最大化与环境交互的信息,呈现一系列无监督目标,其中代理体使用感知与行动调整其世界观,以追求大的环境空间。