游戏中的新颖性检测和适应性调整
本文介绍了一种应对开放性场景中新颖性挑战的方法,该方法结合了逻辑表示和推理方法,利用通用方法和架构机制检测、表征新颖性,并构建相应的适应性模型进行应对。通过在多智能体博弈中的评估,结果表明所提出的方法在各种新颖性挑战下均表现出高准确率。
Feb, 2023
我们提出了一种将新颖性检测引入世界模型强化学习代理中的直接边界方法,通过利用世界模型产生的虚拟状态与真实观察状态的不一致作为异常得分,有效探测并保护代理在新环境中的性能和可靠性。
Oct, 2023
在开放世界中,我们介绍了一个适应新颖性的规划领域模型的方法,通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在,并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估,结果表明我们的方法可以快速且可解释地处理一类新颖性。
Mar, 2023
本文研究了如何提高强化学习算法的适应性,通过引入一种名为 WorldCloner 的训练神经符号世界模型,从而实现快速的新颖性适应,并使用想象力来辅助适应后的策略,达到更高的效率。
Jan, 2023
通过使用简洁而有效的新方法 NAPPING(Novelty Adaptation Principles Learning),我们的研究展示了深度强化学习(DRL)代理可以在各个领域快速有效地适应各种新情况。
Dec, 2023
研究提出了一种新奇性改进的强化学习方法,针对具有改变环境机制 / 属性的新奇性,提出了 NovGrid 框架及其本体,以及可以应用于 MiniGrid 兼容环境的新奇性模板,并通过内置度量指标评估了基线强化学习模型的特征。
Mar, 2022
本研究介绍了一个新的基准数据集 NovelCraft,包含在 Minecraft 环境中完成跳跃球组装任务的代理人所看到的图像和符号世界状态的多模态故事数据。进一步的多模态新颖性检测实验表明,融合视觉和象征信息的方法能够提高检测时间和总体识别能力,同时对于复杂场景中新不平衡分类的适应仍然是一个令人兴奋的开放性问题。
Jun, 2022
提出了 RAPid-Learn 算法:一种混合规划和学习的方法,能够在智能体环境中出现突然和意外的变化时,即时解决任务中的 Markov 决策过程修正问题,有效地应对多样的新颖性,并且更加高效、鲁棒、与符号规划方法和传统基于转移学习的强化学习方法相比更加具有优势。
Jun, 2022