走向新RL网络；目的性图的出现

Feb, 2022

Towards neoRL networks; the emergence of purposive graphs

Per R. Leikanger

TL;DR利用neoRL框架的认知地图和一般值函数实现潜在学习来提取人工智能的目的行为，而自主性的欲望节点允许更深层的neoRL行为图。通过实验验证了四个旨在实现目的网络的原则，证明了受neoRL网络的自主欲望控制的代理能够实时学习并在欧几里得空间中导航，表明现代AI仍然可以从早期的心理学启发中获益。

Abstract

The neorl framework for purposive AI implements latent learning by emulated cognitive maps, with general value functions (GVF) expressing

发现论文，激发创造

深度强化学习智能体行为的实证研究

通过对深度强化学习的智能体的策略网络进行局部网络消融，我们发现健康智能体的行为是通过网络层激活与执行行为之间具有特定的相关模式所表征，并且健康智能体的学习表征在其激活空间中具有反映其不同行为阶段的特定模式，在网络消融时，这些模式被扭曲，导致智能体无法完成其训练控制任务。因此，我们提出了对人工神经网络的一种新的实证研究视角，以确保人工神经网络在透明度和可解释性方面具有科学可证伪性的标准。

Apr, 2020

通过立方空间先验学习神经符号描述性规划模型：归航（到STRIPS）

我们提出了一种新型的神经符号结构，通过从图像中学习出稳固而高效的离散状态转移模型，兼容基于启发式搜索的现代解算器，并且通过在学习过程中加入有利的先验知识降低了学习精度，并开展其对于学习符号表现的优良特质的理论探索。

Apr, 2020

代理行为的局部和全局解释：将策略概要与显著性图结合

本研究结合全局与局部解释方法，通过用户研究评估其共同和单独的贡献，其中将模拟代理程序中的重要状态转换提取为策略概述，并为用户提供注重的信息，结果表明，如果概要包括重要状态的话，人们理解代理程序的能力显著提高。尽管加入显著性地图在大多数情况下并没有显著提高性能，但确实有一些证据表明显著性地图可以帮助用户更好地理解代理程序在决策过程中依赖的信息，为未来的工作提供了建议。

May, 2020

概念空间导航：对人工通用智能的新视角

Tolman's ideas on latent learning and cognitive maps led to conceptual space representation and proposed autonomous navigation as a valid approach for emulated cognition via neoRL navigation of conceptual space that resembles biological learning.

Feb, 2022

使用图神经网络学习基于目标中心的自发行为

本文研究通过使用图神经网络的不同策略表示和两种目标空间，即基于几何或基于谓词的，对自我目标代表和设置的兴趣驱动智能体的学习和转移能力的影响，并表明这种方法有助于实现更困难的目标学习。

Apr, 2022

寻求熵：从内在动机到占据行动状态路径空间的复杂行为

本研究发现，追求长期探索的智能体在没有外部奖励的情况下也能够表现出复杂的行为。研究表明，动作状态路径熵是唯一能够实现期望未来行为状态路径覆盖的一种量度。通过离散和连续状态的任务，我们展示了跳舞、捉迷藏和基本形式的利他行为可以自然而然地从熵追求中得出。如此基于内在动机的智能体能够客观地确定什么状态构成奖励，并利用它们最大化行为状态路径熵

May, 2022

通过自我观察学习心智理论的机器人：利用意图-信仰的协同作用

本文介绍了一种学习他人低层次和高层次心智状态的神经网络模型，并表明把高层次认知附加到低层次状态模型中可以使模型更快、更准确地进行意图预测，并提高学习表现。

Oct, 2022

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的POMDP优化问题，研究当使用Reward Machines作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

习惯和目标的协同作用: 行为的变分贝叶斯框架

该研究提出了一种使用变分贝叶斯理论桥接惯常性和目标导向性行为相互作用的框架，通过引入用于生成习惯性行为的意图先验分布和用于生成目标导向性行为的意图后验分布的贝叶斯潜变量，实现了两种行为的技能共享，并且其能够使代理程序轻松地从习惯性行为泛化到目标导向性行为。

Apr, 2023

学习瞬时可控的状态表示

计算行为的目的性描述和规范性方面包括现行（或未来）世界状况的确定以及对于实现代理人目标的这些状态的可取性的评估；本文提出了一种关于有限代理人中状态表示学习的新理论框架，通过目标导向或目标性状态的概念将描述性方面与规范性方面相结合；我们定义了目标状态表示的一种新的可控性属性来表征其粒度与实现所有目标状态所需的策略复杂性容量之间的权衡；我们提出了一种学习可控状态表示的算法，并通过简单的导航任务演示其有效性；我们的框架强调了有意识地忽视某些信息的重要性，从而学习既具有目标灵活性又简单的状态表示；总体而言，我们的工作为通过目标的视角提供了自然学习和人工学习的统一理论观点迈出了具体的一步。

Jun, 2024