- ICLR基于树搜索的随机执行延迟下的策略优化
该研究介绍了随机延迟执行马尔可夫决策过程的新形式,通过在马尔可夫决策类中进行策略搜索,提高了性能,并使用 DEZ 算法优化了马尔可夫决策过程的采样效率。
- 估计记录策略的双重稳健离线策略评估
该研究介绍了一种新的双鲁棒离策评估(OPE)估计器,用于未知的日志策略和价值函数情况下,能估计产生半参数下界的最小渐近方差。
- 无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian- - 基于数据驱动的批量 $Q^*$ 学习中的知识传递
在数据驱动的决策制定中,通过利用现有企业的大量数据来导航高维特征空间,解决新企业中数据稀缺问题,在动态决策制定中探讨知识转移,并通过马尔可夫决策过程的角度形式定义任务差异,提出了具有通用函数逼近的转移拟合 Q - 迭代算法框架,可直接估计目 - CAESAR: 通过收敛感知采样和筛选增强异构 MDP 中的联邦强化学习
研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案(CAESAR),通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中,显著提高学习效率
- 偏好基于规划的随机环境:从部分有序时态目标到最受欢迎的策略
使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划,将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策,从而综合出最喜欢的策略。
- 马尔可夫决策过程验证学习算法
提出了一个泛用的框架,应用学习算法和启发式指导来验证马尔可夫决策过程 (MDP),主要关注概率可达性问题,包括精确和近似的情况,不受时间限制或折扣因子等条件的限制。
- Koopman 辅助强化学习
基于 Koopman 算子和马尔可夫决策过程(MDPs)的连接,发展了两种新的强化学习算法,以解决高维状态和非线性问题,构建了 “Koopman tensor” 来估计最优价值函数,通过 Koopman 张量对 Bellman 框架进行了转 - 无标度对抗强化学习
该研究探讨了马尔可夫决策过程中的无标度学习问题,提出了一个通用的算法框架(SCB),并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架,从而实现了无标度对抗性多臂赌博机的首个鲁棒(最小化)期望遗憾上界和首个高概率遗憾上界,并产生了第一 - 使用双层马尔可夫决策过程进行空间任务的应急计划
该研究侧重于科学任务的自主应变规划,通过允许从状态空间的任何非正常点快速计算决策,以应对与正常任务计划的延误或偏离。通过提出双层马尔可夫决策过程(MDP)框架,改进了计算可处理性,同时与现有任务规划实践相吻合并增强了基于人工智能的解决方案的 - 基于深度强化学习策略的分层控制器合成
我们提出了一种新颖的方法来解决以马尔可夫决策过程(MDP)建模的环境的控制器设计问题。具体而言,我们考虑了一个层次 MDP,该图的每个顶点由一个名为 “房间” 的 MDP 填充。我们首先应用深度强化学习(DRL)来获取每个房间的低级策略,适 - 马尔可夫决策过程中的弱分布重叠下的离策略评估
在马尔可夫决策过程的顺序忽略性下,具有两重鲁棒性的方法在离线策略评估中具有良好的性能,通过引入一种截断两重鲁棒估计器,该方法能够在不满足强分布重叠假设的情况下实现准确的离线策略评估。
- 马尔可夫决策过程受限的贝叶斯优化
Bayesian optimization 通过 Markov 决策过程的框架扩展了其方法,使用强化学习迭代解决一个可行的线性化目标函数,以获得可以提前规划长期视角的策略,将该方法应用于化学反应器优化、路径规划和机器校准等领域。
- 马尔可夫决策过程中的反事实影响
我们的工作解决了马尔可夫决策过程中反事实推断的基本问题,介绍了基于对比反事实和干预分布的影响比较的算法构建反事实模型,并推导出非最优政策以适应观察路径时的影响约束。
- 通向广义逆强化学习
这篇论文研究了马尔可夫决策过程中的广义逆强化学习 (GIRL),即通过观察到的行为 (策略) 来学习马尔可夫决策过程的基本组成部分,这些组成部分可能不是最佳的。我们解决了 GIRL 中的两个关键挑战:首先,需要量化观察到的策略与基本的最优策 - 基于深度强化学习和迁移学习的边缘缓存
本文探讨了网络中冗余数据传输的日益严峻挑战,提出了基于双深度强化学习缓存的解决方案,通过综合考虑文件的生命周期、大小和重要性等特征,实现了比最近的基于深度强化学习的方法更优异的性能,并引入了迁移学习以解决实际环境中缓存的动态挑战。
- 光滑 MDPs 中的无悔强化学习
为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $
u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我 - 注意力卷积深度强化学习在实时电力市场中优化太阳能储能系统
该研究探讨了太阳能电池储能系统与经济潜力开发中的备用功能,通过模型建立了一个双重马尔可夫决策过程,应用了一种新型深度强化学习算法来提高收益优化和降低能源浪费。
- 环境临近目标培训的意想不到的收获
通过添加可量化的参数噪声到训练的转移函数中,在新的环境中评估增强学习代理的推广能力。我们展示了在 60 个不同的 ATARI 游戏变体中,包括 PacMan、Pong 和 Breakout,通过在替代的噪声设置下训练代理能获得较好的结果。
- 使用马尔可夫决策过程优化工业机器的任务分配和预测维护
本文提出了一种分布式决策方法,用于制造任务分配和基于条件的机器健康维护,并基于马尔可夫决策过程设计决策代理,以处理决策过程中涉及的不确定性。通过数值案例研究,证明该方法具有灵活性和实用性,并可以用人工智能学习成本参数。