适应开放世界新奇性的神经符号世界模型

Jan, 2023

适应开放世界新奇性的神经符号世界模型

Neuro-Symbolic World Models for Adapting to Open World Novelty

Jonathan Balloch, Zhiyu Lin, Robert Wright, Xiangyu Peng, Mustafa Hussain...

TL;DR本文研究了如何提高强化学习算法的适应性，通过引入一种名为 WorldCloner 的训练神经符号世界模型，从而实现快速的新颖性适应，并使用想象力来辅助适应后的策略，达到更高的效率。

Abstract

Open-world novelty--a sudden change in the mechanics or properties of an environment--is a common occurrence in the real world. novelty adaptation is an agent's ability to improve its policy performance post-novelty. Most →

novelty adaptation reinforcement learning neuro-symbolic world model policy learning sequential decision making

发现论文，激发创造

全球模型中集成新颖性检测的简单方法

我们提出了一种将新颖性检测引入世界模型强化学习代理中的直接边界方法，通过利用世界模型产生的虚拟状态与真实观察状态的不一致作为异常得分，有效探测并保护代理在新环境中的性能和可靠性。

Oct, 2023

游戏中的新颖性检测和适应性调整

该研究提出了一种基于模型的强化学习方法，在该方法中，游戏状态和规则都是以知识图谱的形式表示，有助于检测游戏环境中的开放性创新，并进行智能重训练。

Jun, 2021

通过调整规划模型学习在开放世界中的操作

在开放世界中，我们介绍了一个适应新颖性的规划领域模型的方法，通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在，并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估，结果表明我们的方法可以快速且可解释地处理一类新颖性。

Mar, 2023

通过学习适应原则进行快速的开放式世界适应

通过使用简洁而有效的新方法 NAPPING（Novelty Adaptation Principles Learning），我们的研究展示了深度强化学习（DRL）代理可以在各个领域快速有效地适应各种新情况。

Dec, 2023

高保真模拟开放世界中的新颖性适应多智能体规划

本文旨在探索如何让自主智能系统在真实世界的环境中适应、解决并执行计划，针对其中出现的未知问题和新的情况需要进行建模和检测。

Jun, 2023

对抗环境中交互创新处理的方法和机制

本文介绍了一种应对开放性场景中新颖性挑战的方法，该方法结合了逻辑表示和推理方法，利用通用方法和架构机制检测、表征新颖性，并构建相应的适应性模型进行应对。通过在多智能体博弈中的评估，结果表明所提出的方法在各种新颖性挑战下均表现出高准确率。

Feb, 2023

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

NovGrid: 评估智能体对新颖性响应的灵活网格世界

研究提出了一种新奇性改进的强化学习方法，针对具有改变环境机制 / 属性的新奇性，提出了 NovGrid 框架及其本体，以及可以应用于 MiniGrid 兼容环境的新奇性模板，并通过内置度量指标评估了基线强化学习模型的特征。

Mar, 2022

RAPid-Learn: 开放世界环境下学习恢复处理新奇性的框架

提出了 RAPid-Learn 算法：一种混合规划和学习的方法，能够在智能体环境中出现突然和意外的变化时，即时解决任务中的 Markov 决策过程修正问题，有效地应对多样的新颖性，并且更加高效、鲁棒、与符号规划方法和传统基于转移学习的强化学习方法相比更加具有优势。

Jun, 2022

训练鲁棒性世界模型的无奖励课程

本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法，可在 reward-free 环境下有效地学习鲁棒的世界模型，以提高不同环境下的机器人性能。

Jun, 2023