BriefGPT.xyz
Ask
alpha
关键词
convex mdps
搜索结果 - 1
凸 MDP 的奖励足矣
本文研究在马尔可夫决策过程中用凸函数表达目标的问题,使用 Fenchel 对偶将其重新表达为一个涉及策略和成本(负奖励)的 min-max 博弈,并提出一个元算法以统一现有文献中的各种算法。
PDF
3 years ago
Prev
Next