Jun, 2024

学习瞬时可控的状态表示

TL;DR计算行为的目的性描述和规范性方面包括现行(或未来)世界状况的确定以及对于实现代理人目标的这些状态的可取性的评估;本文提出了一种关于有限代理人中状态表示学习的新理论框架,通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合;我们定义了目标状态表示的一种新的可控性属性来表征其粒度与实现所有目标状态所需的策略复杂性容量之间的权衡;我们提出了一种学习可控状态表示的算法,并通过简单的导航任务演示其有效性;我们的框架强调了有意识地忽视某些信息的重要性,从而学习既具有目标灵活性又简单的状态表示;总体而言,我们的工作为通过目标的视角提供了自然学习和人工学习的统一理论观点迈出了具体的一步。