基于数据驱动的状态聚合方法用于动态离散选择模型

Apr, 2023

基于数据驱动的状态聚合方法用于动态离散选择模型

A Data-Driven State Aggregation Approach for Dynamic Discrete Choice Models

Sinong Geng, Houssam Nassif, Carlos A. Manzanares

TL;DR本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数，采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。

Abstract

We study dynamic discrete choice models, where a commonly studied problem involves estimating parameters of agent reward functions (also known as "structural" parameters), using agent behavioral data. Maximum likelihood estimation for such models requires dynamic programming, which is

dynamic discrete choice models maximum likelihood estimation structural parameters inverse reinforcement learning computational complexity

发现论文，激发创造

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

本文提出了一种单步估计算法，用于处理高维状态空间，同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数，使每次策略改进都能够进行。研究表明，该算法可以达到平稳状态，同时在 MuJoCo 机器人控制问题和其转移设置中，相比其他逆向强化学习算法和模仿学习基准，该算法表现更好。

Oct, 2022

从马尔科夫转移数据中学习状态聚合

本文提出了一个基于软聚合模型的简单算法，通过对系统轨迹的概率聚合图进行估计，可以获得显式形式的聚合分布和解聚分布，进而生成具有理解性的数据驱动状态聚合图。

Nov, 2018

动作 - 状态依赖的动态模型选择

The paper introduces a reinforcement learning-based method for model selection in the presence of changing circumstances, particularly in the context of portfolio management with rebalancing costs, demonstrating superior performance compared to hindsight-based model selection.

Jul, 2023

马尔可夫决策过程之外的极限状态聚合

研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Jul, 2014

大型状态空间下的分布鲁棒基于模型的强化学习

提出了一种基于高斯过程和最大方差缩减算法的模型基础方法，用于学习多输出名义转移动力学，克服了强化学习中的若干挑战，并在分布移位方面展示了算法的鲁棒性以及样本数量上的优越性。

Sep, 2023

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018

强化学习中的状态表示选择

该研究论文研究了强化学习中选择正确的状态表示问题，提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。

Feb, 2013

一种基于状态聚合的深度强化学习解决背包问题的方法

本文提出了一种基于深度强化学习的解决背包问题的方法，该方法采用状态聚合策略和 Advantage Actor Critic 算法处理背包问题的每个问题实例，在每个时间步骤逐个选择物品，重复选择直到得到最终解决方案，实验表明该方法能够提供接近于最优解的解决方案，且优于贪心算法，而且处理规模更大和更灵活的问题。此外，本文提出的模型不仅提供更好的解决方案，而且在更少的时间步骤内学习，有着良好的表现。

Apr, 2020

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法，即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态 - 动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的 RL 基线方法，本文方法学习出的最优策略所需样本量减少了 5-1000 倍。

Dec, 2021

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023