本文介绍了一种可扩展的通用增强学习代理的设计方法,该方法基于对 AIXI 的直接逼近,利用 Monte Carlo Tree Search 算法和 Context Tree Weighting 算法的代理特定扩展得以实现,实验表明该算法在多个随机、未知和部分可观察的领域中表现良好。
Jul, 2010
本文介绍了一种基于贝叶斯优化概念的通用强化学习智能体的可扩展设计方法,提出了一种可行的 AIXI 智能体近似算法,并在随机和部分可观测领域上展示了一系列鼓舞人心的结果,最后提出了未来研究的方向。
Sep, 2009
提出一种将逻辑状态抽象与 AIXI 相结合的实用方法,通过基于高阶逻辑的状态表示和推理框架,扩展了 AIXI 在复杂历史依赖和结构环境中的近似模型类,其特征是通过适当的抽象状态序列的语境树加权实现精确的贝叶斯模型学习,可与不同的规划算法相结合。实验结果表明,该智能体在控制大规模接触网络上的传染病方面表现良好。
Oct, 2022
本文研究了如何通过具有局部 Hebbian 可塑性的脑启发式神经编码器来执行主动推断,进而控制动态智能体,并证明该方法在不需要重访过去经历的情况下,可以优于 Q-learning 等传统强化学习方法。
Jun, 2023
提出一种基于经验的理论框架,称为 “实用弱点原则”,用于处理认知科学和人工智能中的主观性问题,并将其与 AIXI 进行比较,显示出在弱点最大化的情况下会取得最优的行为结果。
May, 2022
为了最大化其成功,一个 AGI 通常需要探索其最初未知的世界。我们在这里为广泛类别的环境得出了一种最优的探索方法。
Mar, 2011
介绍了一种结合了 model-free 和 model-based 特点的 deep reinforcement learning 方法 ——Imagination-Augmented Agents(I2As),相比于现有的 model-based 基于规则的 reinforcement learning 和 planning 方法,I2As 通过学习来解释环境模型的预测,以任意方式构建隐式计划,使用预测作为深度策略网络中的额外上下文,相比于基线算法,在数据效率,性能和鲁棒性方面获得了改进。
Jul, 2017
本文提出了一种新的方法来 “差异” 评估已经漂移了的黑盒 AI 代理,包括珍稀观测和其初始模型,以生成一个主动查询策略,并计算其功能的更新模型,我们的方法比从头重新学习代理模型要有效得多,使用我们的方法进行差异评估的成本与代理功能的漂移程度成正比。
Mar, 2022
人工智能与未知代理的协作中,使用了基于内核密度贝叶斯逆学习方法和预训练的、目标条件下的策略以实现零 - shot 策略适应性。该框架在多样的未知代理环境中得到验证,结果表明在合作场景中,其卓越的团队表现推动了人工智能与未知代理的发展。
Mar, 2024
本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法,目的是让模型预测未来状态,从而提高处理强化学习问题的性能。测试表明,这种方法在多个人工场景中学到了预测未来状态的表示,并应用于 C51 模型中,在连续学习任务和 Procgen 环境中实现了性能提升。
Jun, 2020