基于结构信息原则的有效强化学习
本文提出了一种数学结构化信息原则为基础的角色发现方法 ——SIRD,以及一个基于 SIRD 优化的多智能体协作框架 ——SR-MARL,并在 StarCraft II 微观管理基准测试中证明,SR-MARL 框架相对于最先进的 MARL 算法在易、难和超级难的情况下平均测试胜率分别提高了 0.17%、6.08% 和 3.24%,减少了 16.67%、30.80% 和 66.30% 的偏差。
Apr, 2023
本文提出了一种基于信息论的数学结构信息原则的状态抽象框架 SISA,该框架具有一种无监督的,自适应的层次状态聚类方法和一个优化编码树。与其他五种最先进的状态抽象方法相比,实验结果表明,SISA 可以有效地提高每轮回报和样本效率,且可灵活地与不同的表示学习目标相结合进一步提高性能。
Apr, 2023
通过明确信息结构,我们提出了新的强化学习模型,捕捉了经典模型作为特例,以更丰富的方式分析顺序决策问题并实现更具针对性的算法设计。
Mar, 2024
为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战,该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率,并将结构信息的不同模式进行了分类,并提供了设计模式方面的新视角。
Jun, 2023
本文研究了在观测结果高维的情况下,强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法,该算法学习目标任务的健壮策略,其采样复杂度是地平线次数的多项式,并且可以利用先前的知识独立于状态数。
May, 2022
提出一种改进目标函数的模型化强化学习算法,通过互信息最大化来学习视觉模型化强化学习的表示和动力学,并将与行动相关的信息优先考虑,同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估,表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。
Apr, 2022
本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性,并提出了一种新的 IRL 方法 SMIRL,该方法将任务结构化为有限状态自动机,然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验,我们证明了该方法的有效性和高效性,并表明其在具有组合奖励函数的任务中仍然表现良好。
Sep, 2022
本研究提出了一种基于转移模型的新型探索激励方法 STEERING,并通过内核化 Stein 差异度(KSD)计算与优化未知最优模型之间的积分概率度量(IPM),获得亚线性贝叶斯遗憾,比当前基于信息增益的模型强化学习算法表现更优。
Jan, 2023