基于结构信息原则的有效强化学习

Apr, 2024

基于结构信息原则的有效强化学习

Effective Reinforcement Learning Based on Structural Information Principles

Xianghua Zeng, Hao Peng, Dingli Su, Angsheng Li

TL;DR该研究提出了一种基于结构信息原则的有效决策框架，通过信息论的视角，利用一种特定的无监督划分方法生成状态和动作的抽象表示，构建高效的转换图和编码树，引入了基于技能的学习机制，从而改善了单一智能体和多智能体强化学习算法的性能。

Abstract

Although reinforcement learning (RL) algorithms acquire sequential behavioral patterns through interactions with the environment, their effectiveness in noisy and high-dimensional scenarios typically relies on specific structural priors. In this paper, we propose a novel and general

reinforcement learning structural information decision-making unsupervised partitioning skill-based learning

发现论文，激发创造

结构信息原则下的有效和稳定的基于角色的多智能体协作

本文提出了一种数学结构化信息原则为基础的角色发现方法 ——SIRD，以及一个基于 SIRD 优化的多智能体协作框架 ——SR-MARL，并在 StarCraft II 微观管理基准测试中证明，SR-MARL 框架相对于最先进的 MARL 算法在易、难和超级难的情况下平均测试胜率分别提高了 0.17%、6.08% 和 3.24%，减少了 16.67%、30.80% 和 66.30% 的偏差。

Apr, 2023

基于结构信息原则的分层状态抽象

本文提出了一种基于信息论的数学结构信息原则的状态抽象框架 SISA，该框架具有一种无监督的，自适应的层次状态聚类方法和一个优化编码树。与其他五种最先进的状态抽象方法相比，实验结果表明，SISA 可以有效地提高每轮回报和样本效率，且可灵活地与不同的表示学习目标相结合进一步提高性能。

Apr, 2023

关于信息结构在不完全可观察的序列团队与游戏中的增强学习的作用

通过明确信息结构，我们提出了新的强化学习模型，捕捉了经典模型作为特例，以更丰富的方式分析顺序决策问题并实现更具针对性的算法设计。

Mar, 2024

强化学习中的结构：综述与开放问题

为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战，该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率，并将结构信息的不同模式进行了分类，并提供了设计模式方面的新视角。

Jun, 2023

具有潜在动态信息的可证明样本效率强化学习

本文研究了在观测结果高维的情况下，强化学习智能体如何使用对状态空间结构的抽象知识来学习目标领域中的任务。提出了一种名为 TASID 的算法，该算法学习目标任务的健壮策略，其采样复杂度是地平线次数的多项式，并且可以利用先前的知识独立于状态数。

May, 2022

基于视觉模型的强化学习中通过赋能实现信息优先级排序

提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。

Apr, 2022

使用逆强化学习中的结构图案进行奖励学习

本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性，并提出了一种新的 IRL 方法 SMIRL，该方法将任务结构化为有限状态自动机，然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验，我们证明了该方法的有效性和高效性，并表明其在具有组合奖励函数的任务中仍然表现良好。

Sep, 2022

模型基强化学习中的 Stein 信息导向探索

本研究提出了一种基于转移模型的新型探索激励方法 STEERING，并通过内核化 Stein 差异度（KSD）计算与优化未知最优模型之间的积分概率度量（IPM），获得亚线性贝叶斯遗憾，比当前基于信息增益的模型强化学习算法表现更优。

Jan, 2023

信息受限基元的竞争性集成强化学习

通过信息理论机制，提出了一种基于分解原语的策略输入的设计方法，这种方法比扁平和分层策略的泛化性都更好。

Jun, 2019

非监督强化学习的信息几何

本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能，但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。

Oct, 2021