May, 2022

寻求熵:从内在动机到占据行动状态路径空间的复杂行为

TL;DR本研究发现,追求长期探索的智能体在没有外部奖励的情况下也能够表现出复杂的行为。研究表明,动作状态路径熵是唯一能够实现期望未来行为状态路径覆盖的一种量度。通过离散和连续状态的任务,我们展示了跳舞、捉迷藏和基本形式的利他行为可以自然而然地从熵追求中得出。如此基于内在动机的智能体能够客观地确定什么状态构成奖励,并利用它们最大化行为状态路径熵