BriefGPT.xyz
Ask
alpha
关键词
constrained markov decision problem
搜索结果 - 3
高效约束强化学习与普适参数化
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始 - 对偶加速自然策略梯度(PD-ANPG)算法,它保证了 ε 全局最优性差距和 ε 约束违反,样本复杂度为 O (ε^-3),从而在 CMDP 的样本复杂度上取得了 O (ε^-1)
→
PDF
2 months ago
无线边缘多媒体流媒体结构化强化学习
通过使用学习型策略来确定在视频流媒体环境中哪些客户端应该动态优先考虑,以提升用户体验和增加 30% 的 QoE,并使用低计算复杂度的结构化策略进行快速学习。
PDF
3 months ago
带安全约束的保守分布式强化学习
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分
→
PDF
2 years ago
Prev
Next