适应开放世界新奇性的神经符号世界模型
我们提出了一种将新颖性检测引入世界模型强化学习代理中的直接边界方法,通过利用世界模型产生的虚拟状态与真实观察状态的不一致作为异常得分,有效探测并保护代理在新环境中的性能和可靠性。
Oct, 2023
在开放世界中,我们介绍了一个适应新颖性的规划领域模型的方法,通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在,并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估,结果表明我们的方法可以快速且可解释地处理一类新颖性。
Mar, 2023
通过使用简洁而有效的新方法 NAPPING(Novelty Adaptation Principles Learning),我们的研究展示了深度强化学习(DRL)代理可以在各个领域快速有效地适应各种新情况。
Dec, 2023
本文介绍了一种应对开放性场景中新颖性挑战的方法,该方法结合了逻辑表示和推理方法,利用通用方法和架构机制检测、表征新颖性,并构建相应的适应性模型进行应对。通过在多智能体博弈中的评估,结果表明所提出的方法在各种新颖性挑战下均表现出高准确率。
Feb, 2023
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
研究提出了一种新奇性改进的强化学习方法,针对具有改变环境机制 / 属性的新奇性,提出了 NovGrid 框架及其本体,以及可以应用于 MiniGrid 兼容环境的新奇性模板,并通过内置度量指标评估了基线强化学习模型的特征。
Mar, 2022
提出了 RAPid-Learn 算法:一种混合规划和学习的方法,能够在智能体环境中出现突然和意外的变化时,即时解决任务中的 Markov 决策过程修正问题,有效地应对多样的新颖性,并且更加高效、鲁棒、与符号规划方法和传统基于转移学习的强化学习方法相比更加具有优势。
Jun, 2022
本文提出了一种名为 WAKER 的基于 minimax 遗憾目标的算法,可在 reward-free 环境下有效地学习鲁棒的世界模型,以提高不同环境下的机器人性能。
Jun, 2023