非参数通用强化学习
该论文讨论了Thompson采样如何是贝叶斯策略不确定性建模的自然后果、如何用于多个自适应智能体之间的交互研究和如何应用于推断环境中的因果关系等,在自适应顺序决策和因果推断问题中可能不仅是有用的启发式方法,而且也是一个原则性的方法。
Mar, 2013
本研究提出了一种Thompson抽样的变种,用于非参数强化学习中的一类计数的随机环境中,实现了学习环境类的效果,同时假设为可恢复情况下遗憾率是亚线性的。
Feb, 2016
文章提出了一个解决全面事实问题(grain of truth problem)的方法,其中Bayesian agent学习预测其他代理的策略,自适应Thompson sampling收敛于任意未知可计算多代理环境中的ε-Nash均衡。
Sep, 2016
该研究介绍了一种基于最大熵的强化学习或最优控制方法,该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断,并探讨了相关算法和未来研究方向。
May, 2018
本研究因RL作为推理方法的短处而对其进行澄清,RL代理人必须考虑其行动对未来奖励和观察结果的影响,即探索和开发之间的权衡。我们证明了‘RL作为推理’近似在基本问题中表现不佳,但我们展示了通过小修正该框架可以获得可靠的算法,该算法与最近提出的K-learning等价,我们进一步将其与汤普森取样联系起来。
Jan, 2020
本文提出了一种多智能体强化学习算法,可以在一般和马尔可夫博弈中学习到一个粗略的相关均衡策略,并且算法是完全分散的,智能体只有本地信息,并不知道其他智能体的存在。
Oct, 2021
贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法,但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战,通过在一维贝尔曼算子中建模不确定性,引入贝叶斯探索网络(BEN),通过正态化流来建模贝尔曼算子中的不确定性,并通过变分推断来建模知识性不确定性,实验结果表明,BEN可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。
Aug, 2023
通过学习数据转化的算法,我们能够解决传统优化目标导致的鲁棒性不足问题,在强化学习中,该问题可通过学习人工智能在非遍历环境中获得的长期回报来优化个体代理而不是无限数量的轨迹的平均值。
Oct, 2023
使用乐观跟随正则化领导者算法结合适当的价值更新过程,在全信息一般和马尔可夫博弈中找到近似于O(T^-1)粗糙相关均衡。
Feb, 2024
我们研究了非时序强化学习(RL)的问题,其中系统动态未知,并且RL代理需要从单个轨迹中学习,即没有重置。我们提出了Nonepisodic Optimistic RL(NeoRL),这是一种基于乐观原则面对未知动态的方法。NeoRL使用经过良好校准的概率模型,并在对未知动态的认知不确定性方面进行乐观规划。在对系统连续性和有界能量的假设下,我们提供了第一个适用于具有高斯过程动态的一般非线性系统的遗憾边界为O(β_T√(TΓ_T))。我们将NeoRL与其他基准在几个深度RL环境上进行比较,并经验证明NeoRL实现了最佳平均成本,同时产生了最小的遗憾。
Jun, 2024