markov decision problem | BriefGPT

关键词markov decision problem

搜索结果 - 8

用动态规划发现决策树的解释性与性能的最优解
为了找到最佳的决策树，本文提出了一种新的马尔可夫决策问题 (MDP) 的公式，允许用户在计算一个动态规划的同时选择最适合自身需求的决策树
PDF9 months ago
逆强化学习中的可识别性
通过使用熵正则化，我们解决了马尔科夫决策问题中的奖励函数的非可辨识性问题，并完全表征给定环境下导致特定策略的奖励函数，同时演示了在不同折扣系数或足够不同的环境下给定奖励的行动演示下未被观察到的奖励可以恢复至常量。此外，我们还提供了在有限视野
PDF3 years ago
如何公正决策长期资格问题？
本文针对决策公平性方面的长期影响进行研究，研究人员通过模拟静态公平约束下群体福祉的平等和改进的长期影响以及潜在的干预措施，发现其对于群体福利可同时具有促进平等和增加差距两种影响，同时提出一种理论框架并完成了基于实际数据与模拟动态的社会科学研
PDF4 years ago
深度强化学习控制排队网络
本论文研究了如何将新型高级策略梯度方法运用于具有无限状态空间、无界代价和长期平均代价目标的马尔可夫决策问题，提出了一种基于距离价值函数估计的 Proximal Policy Optimization 算法，并使用方差抑制技术解决了采样带来的
PDF4 years ago
MMFighting Fantasy 游戏系统中的最优策略：通过有限的资源赌博来影响随机动态
使用随机分析、模拟和动态规划相结合的方法，研究了 Fighting Fantasy 一种受欢迎的幻想游戏系统中的策略问题，特别关注于资源的动态分配，提出了一种简单的胜利概率表达和一个 UDP 的最优解方法。
PDF4 years ago
基于特征聚合和深度强化学习的调查与一些新实现
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这
PDF6 years ago
随机线性规划以几乎线性（有时是亚线性）的运行时间解决折扣马尔科夫决策问题
提出一种新的随机线性规划算法，利用价值 - 策略对偶和二叉树数据结构，自适应地采样状态 - 动作 - 状态转移，并进行指数原始 - 对偶更新，从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些
PDF7 years ago
更新还是等待：如何保持数据新鲜
研究如何通过控制信息更新来最优地管理信息的新鲜度，提出了一种一般的年龄惩罚函数来量化数据新旧程度，将平均年龄惩罚最小化问题建模为带约束的半马尔可夫决策问题 (SMDP)，并开发了高效算法来找到最优更新策略，证实了当年龄惩罚函数与年龄的快速增
PDF8 years ago