一种基于状态聚合的深度强化学习解决背包问题的方法

Apr, 2020

一种基于状态聚合的深度强化学习解决背包问题的方法

A State Aggregation Approach for Solving Knapsack Problem with Deep Reinforcement Learning

Reza Refaei Afshar, Yingqian Zhang, Murat Firat, Uzay Kaymak

TL;DR本文提出了一种基于深度强化学习的解决背包问题的方法，该方法采用状态聚合策略和 Advantage Actor Critic 算法处理背包问题的每个问题实例，在每个时间步骤逐个选择物品，重复选择直到得到最终解决方案，实验表明该方法能够提供接近于最优解的解决方案，且优于贪心算法，而且处理规模更大和更灵活的问题。此外，本文提出的模型不仅提供更好的解决方案，而且在更少的时间步骤内学习，有着良好的表现。

Abstract

This paper proposes a deep reinforcement learning (DRL) approach for solving knapsack problem. The proposed method consists of a state aggregatio

deep reinforcement learning knapsack problem state aggregation advantage actor critic constructive solution

发现论文，激发创造

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018

基于数据驱动的状态聚合方法用于动态离散选择模型

本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数，采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。

Apr, 2023

分而治之强化学习

提出了一种将初始状态空间划分为不同 ' 切片 ' 并对每个切片上的策略进行优化的 Deep RL 算法，其逐步将这些策略组合为一个能够在整个状态空间上成功的策略，该方法在挑战性的抓握、操纵和运动任务上表现出比常规策略梯度方法更好的性能。

Nov, 2017

马尔可夫决策过程之外的极限状态聚合

研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。

Jul, 2014

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

使用深度强化学习学习状态表示以进行查询优化

研究使用深度强化学习在数据库领域中的查询优化问题，特别关注状态表征问题和状态转移函数的构建，并证明该方法在优化查询方面具有潜在的应用价值。

Mar, 2018

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

供应链库存管理的深度强化学习方法

本文提出使用强化学习和深度学习技术来解决供应链库存管理问题，提供了随机两阶段供应链环境的数学形式，并开发了一个公开的库，以便使用深度强化学习算法解决 SCIM 问题。实验结果表明，DRL 相对于标准的重新订购策略表现更好，因此可以被视为解决真实世界的问题的一种实用有效的选择。

Apr, 2022

应用深度强化学习解决带用户偏好装配序列规划问题

本文提出了一种采用深度强化学习方法解决装配序列规划（ASP）问题的方法，使用用户偏好和总装配时间作为奖励信号，并引入参数化行为来提高训练时间和样本效率。研究结果表明，深度强化学习与人类互动解决装配序列规划问题具有潜在的应用前景。

Apr, 2023

深度强化学习解决管理问题：迈向大型管理模式

我们引入了一种深度强化学习 (DRL) 方法来解决包括库存管理、动态定价和推荐等管理问题。这种 DRL 方法有潜力基于特定的变压器神经网络结构构建一个大型管理模型，从而为各种管理任务提供一种人工通用智能范式。我们的方法能够统一框架下解决问题，考虑不同任务之间的相互关系。实验结果验证了我们基于 DRL 的框架在复杂和动态的商业环境中的有效性。这项工作为 DRL 在管理问题中的应用开辟了新的道路，突显了其改革传统商业管理的潜力。

Mar, 2024