Oct, 2022
智能代理和机制学习算法
Learning Algorithms for Intelligent Agents and Mechanisms
Jad Rahme
TL;DR论文研究强化学习及拍卖设计的优化决策算法,包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。
Abstract
In this thesis, we research learning algorithms for optimal decision making
in two different contexts, reinforcement learning in Part I and auction design
in Part II.
→
发现论文,激发创造
发现强化学习算法
该论文提出一种新的元学习方法,可以通过与一组环境交互,发现一个包含价值函数和时间差分学习等元素的更新规则,从而得到一个名为 LPG 的 RL 算法,该方法可以发现自己对于价值函数的替代方案,并有效地推广到复杂的 Atari 游戏中。
Jul, 2020
多智能体系统的深度强化学习:挑战、解决方案和应用综述
此篇论文介绍了多智能体深度强化学习的不同方法,包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习,并分析和讨论了这些方法的优缺点及其相关应用,旨在促进更加健壮和高效的多智能体学习方法的发展。
Dec, 2018
特征强化学习:第一部分:非结构化 MDPs
本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为 MDP 框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行 MDPs 的指导,并在算法中将各个部分整合到一起。
Jun, 2009
非参数通用强化学习
本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果,并证明 Thompson 采样在随机环境中是渐进最优的。此外,作者构建了一个大但可计算的类,展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。
Nov, 2016
学习思考:用算法信息理论处理强化学习控制器和递归神经网络世界模型的新型组合
本文介绍了基于 RNN 的 AI (RNNAIs) 框架及其在强化学习中的应用,该框架旨在学习其初始未知环境的预测模型,并在抽象推理和决策制定方面对其进行询问和利用,实现了 “学习思考” 的目标。
Nov, 2015