linear markov decision processes | BriefGPT

关键词linear markov decision processes

搜索结果 - 6

如何扩展逆强化学习至大规模状态空间？一种经过验证的高效方法
在线逆向强化学习中，为了改善对奖励函数的估计，学习器可以收集关于环境动态的样本。本文针对在线逆向强化学习问题在线性马尔可夫决策过程中的情况进行研究，介绍了奖励兼容性的新框架，并开发了一种样本高效的算法 CATY-IRL，其复杂度与状态空间的
PDFa month ago
线性马尔可夫决策过程中的常数遗憾解决
我们研究了强化学习中的恒定遗憾保证问题，提出了一种算法 Cert-LSVI-UCB，用于在线性马尔科夫决策过程中近似转移核和奖励函数，利用认证估计器进行集中分析，证明了其对于无限次运行具有恒定的遗憾边界，不依赖先验分布假设。
PDF3 months ago
面向具有悔恨的对抗性线性马尔可夫决策过程的最优化
在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。
PDF9 months ago
稀疏线性 MDP 中的探索和学习，无需计算难解的预测器
线性马尔科夫决策过程（MDP）中的特征选择和零稀疏线性 MDP，以及通过凸规划有效计算的模拟器、低深度决策树上的区块 MDP 的学习算法。
PDF10 months ago
线性马尔可夫决策过程中乐观近端策略优化的理论分析
本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取
PDFa year ago
非定常线性马尔可夫决策过程中的高效学习
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上
PDF4 years ago