基于特征聚合和深度强化学习的调查与一些新实现

Apr, 2018

基于特征聚合和深度强化学习的调查与一些新实现

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Dimitri P. Bertsekas

TL;DR本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Abstract

In this paper we discuss policy iteration methods for approximate solution of a finite-state discounted markov decision problem, with a focus on

policy iteration markov decision problem feature-based aggregation deep reinforcement learning neural networks

发现论文，激发创造

马尔可夫决策过程之外的极限状态聚合

研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Jul, 2014

一种基于状态聚合的深度强化学习解决背包问题的方法

本文提出了一种基于深度强化学习的解决背包问题的方法，该方法采用状态聚合策略和 Advantage Actor Critic 算法处理背包问题的每个问题实例，在每个时间步骤逐个选择物品，重复选择直到得到最终解决方案，实验表明该方法能够提供接近于最优解的解决方案，且优于贪心算法，而且处理规模更大和更灵活的问题。此外，本文提出的模型不仅提供更好的解决方案，而且在更少的时间步骤内学习，有着良好的表现。

Apr, 2020

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

基于数据驱动的状态聚合方法用于动态离散选择模型

本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数，采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。

Apr, 2023

在强化学习中选择近似最优的状态表示

本文研究了一种强化学习设置，其中学习者没有显式访问底层马尔可夫决策过程（MDP）的状态，而是可以访问将过去互动的历史映射到状态的多个模型，并改进了这种设置下已知的后悔边界，并更重要的是对给定给学习者的模型不包含 MDP 表示而只包含其近似的情况进行了概括。我们还改进了状态聚合的误差边界。

May, 2014

使用深度强化学习进行代价昂贵的特征分类

本文研究一个分类问题，针对特征的代价进行优化，通过应用神经网络的顺序决策方法来解决分类问题，表现与专为此问题开发的算法相当，并且灵活性高，可通过引入预先训练的高性能分类器来改进。

Nov, 2017

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

深度强化学习在全局策略下用于基于查询的提取式摘要

本文提出一种应用基于策略梯度算法的深度强化学习系统的证明性方法，以解决文本摘要中标签不匹配问题，使用无折扣奖励学习具有简单神经网络和简单特征的策略，验证结果表明在全局策略下具有鼓舞人心的表现。

Nov, 2017

部分可观测深度强化学习的后悔最小化

本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法，能够有效处理部分观测状态，并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。

Oct, 2017

从马尔科夫转移数据中学习状态聚合

本文提出了一个基于软聚合模型的简单算法，通过对系统轨迹的概率聚合图进行估计，可以获得显式形式的聚合分布和解聚分布，进而生成具有理解性的数据驱动状态聚合图。

Nov, 2018