AIXI 智能体的动态知识注入

AAAIDec, 2023

Dynamic Knowledge Injection for AIXI Agents

Samuel Yang-Zhao, Kee Siong Ng, Marcus Hutter

TL;DR通过引入一个名为 DynamicHedgeAIXI 的新代理实现对 AIXI 的贴切逼近，通过使用一种时间自适应优先级构建的贝叶斯混合模型，该代理在表示动态变化的模型集合时表现出良好性能，实验证实该代理在传染病控制方面的实际效用。

Abstract

Prior approximations of aixi, a Bayesian optimality notion for general reinforcement learning, can only approximate aixi's Bayesian enviro

aixi approximations epistemic uncertainty human-ai teaming dynamichedgeaixi

发现论文，激发创造

AIXI 近似强化学习

本文介绍了一种可扩展的通用增强学习代理的设计方法，该方法基于对 AIXI 的直接逼近，利用 Monte Carlo Tree Search 算法和 Context Tree Weighting 算法的代理特定扩展得以实现，实验表明该算法在多个随机、未知和部分可观察的领域中表现良好。

Jul, 2010

蒙特卡罗 AIXI 近似

本文介绍了一种基于贝叶斯优化概念的通用强化学习智能体的可扩展设计方法，提出了一种可行的 AIXI 智能体近似算法，并在随机和部分可观测领域上展示了一系列鼓舞人心的结果，最后提出了未来研究的方向。

Sep, 2009

使用逻辑状态抽象直接逼近 AIXI

提出一种将逻辑状态抽象与 AIXI 相结合的实用方法，通过基于高阶逻辑的状态表示和推理框架，扩展了 AIXI 在复杂历史依赖和结构环境中的近似模型类，其特征是通过适当的抽象状态序列的语境树加权实现精确的贝叶斯模型学习，可与不同的规划算法相结合。实验结果表明，该智能体在控制大规模接触网络上的传染病方面表现良好。

Oct, 2022

Hebbian 学习网络中的主动推断

本文研究了如何通过具有局部 Hebbian 可塑性的脑启发式神经编码器来执行主动推断，进而控制动态智能体，并证明该方法在不需要重访过去经历的情况下，可以优于 Q-learning 等传统强化学习方法。

Jun, 2023

可计算人工通用智能

提出一种基于经验的理论框架，称为 “实用弱点原则”，用于处理认知科学和人工智能中的主观性问题，并将其与 AIXI 进行比较，显示出在弱点最大化的情况下会取得最优的行为结果。

May, 2022

规划惊喜：动态环境下的最优贝叶斯探索

为了最大化其成功，一个 AGI 通常需要探索其最初未知的世界。我们在这里为广泛类别的环境得出了一种最优的探索方法。

Mar, 2011

深度强化学习中的想象增强智能体

介绍了一种结合了 model-free 和 model-based 特点的 deep reinforcement learning 方法 ——Imagination-Augmented Agents（I2As），相比于现有的 model-based 基于规则的 reinforcement learning 和 planning 方法，I2As 通过学习来解释环境模型的预测，以任意方式构建隐式计划，使用预测作为深度策略网络中的额外上下文，相比于基线算法，在数据效率，性能和鲁棒性方面获得了改进。

Jul, 2017

黑盒人工智能代理的差异性评估

本文提出了一种新的方法来 “差异” 评估已经漂移了的黑盒 AI 代理，包括珍稀观测和其初始模型，以生成一个主动查询策略，并计算其功能的更新模型，我们的方法比从头重新学习代理模型要有效得多，使用我们的方法进行差异评估的成本与代理功能的漂移程度成正比。

Mar, 2022

未知环境下的协同人工智能团队合作通过主动目标推理

人工智能与未知代理的协作中，使用了基于内核密度贝叶斯逆学习方法和预训练的、目标条件下的策略以实现零 - shot 策略适应性。该框架在多样的未知代理环境中得到验证，结果表明在合作场景中，其卓越的团队表现推动了人工智能与未知代理的发展。

Mar, 2024

深度强化学习和信息最大化学习

本文介绍了一种基于 Deep InfoMax (DIM) 的训练方法，目的是让模型预测未来状态，从而提高处理强化学习问题的性能。测试表明，这种方法在多个人工场景中学到了预测未来状态的表示，并应用于 C51 模型中，在连续学习任务和 Procgen 环境中实现了性能提升。

Jun, 2020