BriefGPT.xyz
Ask
alpha
关键词
occupation measures
搜索结果 - 1
随机算法与 PAC 界限在连续空间逆向强化学习中的应用
该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性,
→
PDF
a month ago
Prev
Next