动态动作空间强化学习中的行动捕捉

Apr, 2023

动态动作空间强化学习中的行动捕捉

Action Pick-up in Dynamic Action Space Reinforcement Learning

Jiaqi Ye, Xiaodong Li, Pangjing Wu, Feng Wang

TL;DR提出了一种智能的 Action Pick-up 算法，用于从新的和未知的动作中自主选择最有可能提高性能的有价值的动作，它利用之前的最优策略提供有用的知识和经验，具有比基线更优的学习效率。

Abstract

Most reinforcement learning algorithms are based on a key assumption that Markov decision processes (MDPs) are stationary. However, non-stationary MDPs with dynamic action space are omnipresent in real-world scen

reinforcement learning mdp dynamic action space action pick-up learning efficiency

发现论文，激发创造

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024

自适应可变需求的自主路由和取货问题的多智能体强化学习

提出了一个通过自适应路由策略降低等待时间、考虑未来需求以及能够适应不同需求分布的自主汽车调度和接送框架，该框架通过线上游戏算法和线下逼近方案相结合，在美国旧金山的实际出租车需求中得到了验证。

Nov, 2022

学习高效且公平的不确定性感知人机协作拣货策略

在协作式人机拣货系统中，通过仓库独立移动的人工拣货员和自主移动机器人（AMRs）在拣货位置汇合，拣货员将物品装上 AMRs。本文考虑在这种系统中在随机环境下将拣货员分配给 AMRs 的优化问题，提出了一种新颖的多目标深度强化学习（DRL）方法，以学习有效的分配策略，既最大化拣货效率，又提高人工拣货员的工作负载公平性。我们的方法使用图模型来建模仓库的状态，并定义了一个能够捕捉区域信息并有效提取与效率和工作负载相关表征的神经网络架构。我们开发了一个离散事件模拟模型，用于训练和评估提出的 DRL 方法。实验中，我们证明了我们的方法能够找到非支配策略集，从而在公平性和效率目标之间获得良好的权衡。训练的策略在效率和公平性方面优于基准线，并且在不同仓库大小的场景中展现出良好的可迁移性。

Apr, 2024

复杂动作空间中的学习与规划

本文提出了一个基于策略迭代的通用框架，可以在对一小部分行动的样本进行策略评估和改进的情况下对强化学习算法进行推理。其中，样本化 MuZero 是 MuZero 算法的一个扩展，可以在计划采样动作的情况下学习具有任意复杂行动空间的目标。作者用围棋和 DeepMind 的控制套件以及真实世界的强化学习测试开展了实证研究。

Apr, 2021

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

量化先于选择：活跃动态偏好在强化学习中的鲁棒性

通过引入主动动态偏好方法（Active Dynamics Preference），对系统随机参数进行有效选择，并在四个机器人运动任务中进行验证，表明此方法具有超强的适应性和鲁棒性，可有效提高机器人环境下的一致性。

Sep, 2022

无需演示学习可变形物体操纵

本文介绍了基于无模型视觉强化学习的变形物体操作问题，通过提出迭代的拾取 - 放置空间和只显式学习放置策略来加速学习，并使用 MVP 选择策略，此学习框架在变形物体操纵任务方面获得了比独立空间快一个数量级的学习，并使用领域随机化将策略转移到 PR2 机器人上，对布料和绳索覆盖任务进行了实验验证。

Oct, 2019

可预测的 MDP 抽象用于非监督式模型基础强化学习

本研究提出了一种可预判马尔可夫决策过程抽象的方法，通过无监督学习在训练模型时进行转换，使得模型的学习变得更加容易和精确，从而实现强大的基于模型的规划或基于模型的强化学习，已在多项基准环境中证明了其较先前的无监督模型训练方法具有显著的改进。

Feb, 2023

深度强化学习下的网络控制处理

探讨了用于解决处理网络控制优化问题的先进策略梯度算法的理论和实际应用，为此针对马尔可夫决策过程和半马尔可夫决策过程问题，优化了现有的策略改进边界，并提出了新的策略改进边界，并使用定制的 PPO 算法对处理网络控制问题进行了解决。

May, 2022

使用动作偏好查询提升离线强化学习

本文介绍了一种称为 OAP 的无交互培训方案，该方法通过查询预先收集的、学习到的动作之间的偏好来适应性地鼓励或抑制策略限制，从而更准确地评估未见数据，实验证明 OAP 的综合实验在 D4RL 基准测试和最先进算法上具有更高的得分（平均增加 29％），特别是在具有挑战性的 AntMaze 任务上（增加 98％）。

Jun, 2023