EXPIL:游戏学习中的解释性谓词创造
介绍了一种将深度强化学习与时间逻辑相结合的神经符号代理,以实现形式化规定指令的系统性零射(就是指未曾见过的情况)。研究证明,卷积层的架构在泛化新指令时发挥了关键作用,并证明通过学习少量训练样例,可以从抽象操作符中实现系统化的学习。
Jun, 2020
本文研究了RL智能体如何在具备通识知识的情况下进行决策。通过设计新的基于文本的游戏环境,实现了一种感知建模的系统,同时,也为该环境提出了多个基线RL智能体,这些智能体能通过动态检索ConceptNet中相关的通识知识,实现了更好的表现。
Oct, 2020
研究文本游戏在强化学习环境下的指令正确率,设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令,通过文字游戏的实验验证该结构化语言指令的有效性和优越性。
Nov, 2022
本篇综述论文将积极介绍深度强化学习与可解释机器学习的交叉,比较了先前的方法,提出了一种补充,阐明了深度学习对智能机器人控制任务的适用性,强调机器学习与人类知识相互融合提升学习效率和性能的意义,并评估了未来XRL研究面临的挑战和机遇。
Nov, 2022
现有关于基于深度学习代理之间紧急通信的研究受到广泛关注,因为它对语言学和人工智能有启发作用。本研究提出了一个认知导向的环境——推理游戏,鼓励代理人进行高层次规则的推理和沟通,而不是感知低层次环境。实验结果表明,在推理游戏中,出现了一个语义稳定且组合性强的语言来解决推理问题。这种演化的语言帮助代理人将提取的规则应用到看不见的环境属性的推广中,以及不同环境属性甚至任务之间的迁移。
Nov, 2023
通过介绍 Explainable RL 领域中的 state-explaining techniques 及 XRL-Bench 和 TabularSHAP 方法,本研究为解释性 RL 技术的发展提供了实用工具和评估框架。
Feb, 2024
使用大型语言模型在游戏中评估策略推理能力的跨领域基准(GameBench)显示,虽然大多数测试模型并不及人类水平,但对策略推理能力的两种框架(CoT和RAP)能够提高分数。
Jun, 2024
本研究针对历史解释基于谓词(HXP)面临的长历史操作重要性评分计算的复杂性问题,提出了一种新的方法——反向HXP(Backward-HXP),以无须近似评分的方式提供解释。实验结果表明,反向HXP能够有效地总结长历史,提升了解释质量。
Aug, 2024
本研究解决了预训练语言模型在处理复杂不熟悉游戏时的局限性,提出了一种将思维树与多智能体框架相结合的方法。这种方法分解游戏解决过程为四个增量任务,并应用于对抗性游戏,展示了65%的胜率,相较于基准算法在微调后再提升了10%,强调了其高效性与可扩展性。
Oct, 2024