- 一个类似于继承表现的分布式模型
该研究提出了一种新的分布式强化学习方法,它清晰地将过渡结构和奖励在学习过程中分开,通过最小化两层最大均值差异来学习分布式后继度量,进而实现零 - shot 风险敏感策略评估。
- 预测性表征:智能的构建基石
自适应行为的核心是预测未来事件,本研究将强化学习理论与认知和神经科学研究整合,特别关注继承表示及其推广,表明特定类型的预测表示可能作为智能的多功能基石。
- 学习分布式希伯阶相邻表征
这篇论文介绍了一种针对不稳定、部分可观测环境下决策的在线隐藏表示学习方法。提出的分布式赫比时态记忆(DHTM)算法基于因子图形式和多组分神经元模型,它旨在捕捉序列数据关系,并对未来观察作出累积预测,形成继承者表示。经实验证明,DHTM 算法 - 递减奖励的状态表示
在多任务强化学习中,我们研究了递减边际效用现象,并引入了一种新的状态表示,λ 表示(λR),它在政策评估方面的性能优于其他表示方法,并且在研究自然行为,特别是觅食行为方面也很有用。
- 基于神经网络的语义空间认知图形生成及抽象概念的出现
该研究使用神经网络学习 32 种动物的特征向量,并基于继承表示原理构建了一个 “动物空间” 的认知地图,该地图能够使用插值技术准确地表示完全新的或不完整的输入,并在不同的认知地图级别中呈现出不同的特征。
- 时间扩展继承表示
本文介绍一种称为 t-SR 的时间上扩展的后继表示法,它通过构造基本动作的继承表示来捕获时间上扩展的操作的预期状态转移动态,从而减少了控制所需的决策数量,同时学习到时间上扩展的动作序列的时域,优于价值基、非模型强化学习方法。
- 继任者表示主动推理
本文介绍了新型的 active inference agent 架构,基于 successor representations,利用了贝叶斯滤波的先驱矩阵的概率解释。研究结果表明,相对于当前的 active inference agent, - AKF-SR: 自适应卡尔曼滤波后继表征
该研究提出了基于自适应卡尔曼滤波的继承表达法,其中包括卡尔曼滤波和时变差分法,实现 SR 学习过程的不确定性估计,并提出了一种基于估计 SR 不确定性的主动学习方法,以提高智能体在与环境交互中的总体性能。
- ICML使用继承表示的深度强化学习方法实现边缘化重要性采样
本文介绍了一种基于 successor representation 的边际重要性抽样 (MIS) 方法,与当前最先进的 MIS 方法相比,该方法减少了优化难度并具有普适性。作者在 Atari 和 MuJoCo 等挑战性环境中进行了实验性能 - 无限时间预测的生成时序差分学习
本文介绍了 γ 模型 —— 一种具有无限概率时间的预测环境动态模型。它能够代替常规的单步模型,进一步通用模型控制、模型展开和基于模型价值评估等过程。该模型通过生成式时间差分学习进行训练,是状态衍生表示的连续自然模拟,并结合了无模型和基于模型 - 基于推断的后继映射进行更好的迁移学习
我们提出了一种算法来解决多任务学习中的转移问题,该算法结合了因子化表示和非参数、基于记忆的方法,并利用后继表示法来提高转移能力和性能表现。同时,该算法提供了一个更好的神经生物学模型来解释海马体区域的空间编码特征。
- AAAI使用继承表示实现基于计数的探索
介绍了基于继承代表(successor representation)的强化学习的简单方法,利用其转移概念的范数作为奖励来激励探索,以及用隐式计数实现高效完备探索,并在 Atari 2600 游戏中实现了最先进的性能。
- 利用后继表示加速建构性预测框架的学习
本文研究使用后继表示法(SR)加速基于通用价值函数(GVF)的积极知识系统的学习,在网格世界中分析了该方法,并在机器人物理数据上证明了它的潜力。