智能代理和机制学习算法

Oct, 2022

Learning Algorithms for Intelligent Agents and Mechanisms

Jad Rahme

TL;DR论文研究强化学习及拍卖设计的优化决策算法，包括最大熵强化学习、基于贝叶斯角度的强化学习、策略学习算法 LEEP、匿名拍卖用于对称性保护的神经网络 EquivariantNet 及用于拍卖学习问题的双人博弈算法 ALGNet。

Abstract

In this thesis, we research learning algorithms for optimal decision making in two different contexts, reinforcement learning in Part I and auction design in Part II. →

reinforcement learning auction design policy learning markov decision process neural network

发现论文，激发创造

自动强化学习概述

论文探讨自动化强化学习的关键元素和挑战，并讨论自动化强化学习的最新工作、应用和研究方向。

Jan, 2022

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

深度学习优化拍卖：可微分经济学的进展

使用深度学习工具，将拍卖建模为多层神经网络，将最优拍卖设计作为约束学习问题，并演示如何使用标准机器学习管道解决此问题。

Jun, 2017

多智能体系统的深度强化学习：挑战、解决方案和应用综述

此篇论文介绍了多智能体深度强化学习的不同方法，包括非静态性、部分可观测性、连续的状态和操作空间、多智能体训练机制、多智能体转移学习，并分析和讨论了这些方法的优缺点及其相关应用，旨在促进更加健壮和高效的多智能体学习方法的发展。

Dec, 2018

路径规划、网络传输和强化学习的新拍卖算法

提出了一种基于拍卖的算法，应用于路径规划与网络传输的优化问题，具有较快速度、实时操作和适用于强化学习等优势。

Jul, 2022

特征强化学习：第一部分：非结构化 MDPs

本文研究如何自动化减少任务的状态表达，以将通用的智能学习机设定为 MDP 框架，从而扩大许多现有强化学习算法和使用它们的机器人的范围，并开发一种形式化的客观标准作为搜索可行 MDPs 的指导，并在算法中将各个部分整合到一起。

Jun, 2009

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

教育中的强化学习：多臂赌博机方法

本研究通过上下文化和模拟累计奖励来解决教育上的干预建议问题，采用强化学习的代理模型结合混合学习方法，景点在线平台的自动化功能

Nov, 2022

学习思考：用算法信息理论处理强化学习控制器和递归神经网络世界模型的新型组合

本文介绍了基于 RNN 的 AI (RNNAIs) 框架及其在强化学习中的应用，该框架旨在学习其初始未知环境的预测模型，并在抽象推理和决策制定方面对其进行询问和利用，实现了 “学习思考” 的目标。

Nov, 2015

深度强化学习简介

介绍了深度强化学习的模型、算法和技术，着重讨论与泛化相关的方面以及深度强化学习在实际应用中的使用。

Nov, 2018