关于信息结构在不完全可观察的序列团队与游戏中的增强学习的作用
该研究提出了一种基于结构信息原则的有效决策框架,通过信息论的视角,利用一种特定的无监督划分方法生成状态和动作的抽象表示,构建高效的转换图和编码树,引入了基于技能的学习机制,从而改善了单一智能体和多智能体强化学习算法的性能。
Apr, 2024
为了克服弱数据效率、泛化能力有限、安全保障缺失、解释性差等因素导致强化学习在实际应用中面临的挑战,该论文提出了一种集成结构信息的方法来提高 RL 算法的性能和效率,并将结构信息的不同模式进行了分类,并提供了设计模式方面的新视角。
Jun, 2023
本研究旨在解决强化学习中部分可观察马尔可夫决策过程带来的性能下降问题,并通过对表示视图的利用提出了一种可行的强化学习算法,可在部分观测输入下实现比现有算法更高的性能,推动可靠强化学习在实际应用中的应用。
Nov, 2023
本篇论文介绍和综合了基于马尔可夫决策过程相关的方法,显示它们为建立 AI 中研究的许多类计划问题提供了一个统一的框架,并概述了用于易于构建策略或计划的计算工具的几种类型的表示和算法。
May, 2011
通过将动作序列纳入来解决部分可观察马尔可夫决策过程,本研究提出了几种结构和方法来扩展最新的深度强化学习算法与 LSTM 网络,结果显示这些算法提升了控制器对不同类型外部干扰的鲁棒性。
Jul, 2023
本文研究了在线强化学习在部分可观测动态系统中的应用,提出了一种基于模型的算法,通过可观测量学习了一个近似最优策略,其样本复杂度与系统的有关参数呈多项式关系。该算法自然地支持函数逼近,可处理具有潜在大状态和观测空间的系统,并且在一些特殊模型中也得到了有效应用。
Jul, 2022
这项研究探索了多个强化学习代理中的信息设计问题,提出了 Markov 信号博弈的概念,根据信号梯度和扩展服从约束开发算法,有效地解决了非稳定性和信息被忽略的挑战,并在各种混合动机任务中提供了更深入的计算经济学见解。
May, 2023
本文提出了一种新的序列信息设计模型 —— 马尔科夫说服过程(MPP),并在在线强化学习环境下设计了一种有效的无后悔策略学习算法(OP4),该算法可高效地确定具有有限或无限状态和结果的优化策略,提高发件人的效用。
Feb, 2022
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆向强化学习算法和模仿学习基准,该算法表现更好。
Oct, 2022
本研究提出了一种新的统一原理来实现信息寻求和奖励最大化,将主动推理与强化学习结合起来,不仅解决了各自的局限性,同时还具有超越传统方法的探索新颖奖励的性能。
Dec, 2022