BriefGPT.xyz
Ask
alpha
关键词
dense-time
搜索结果 - 1
连续时间 MDP 的 Omega 正则规范的强化学习
探究离散时间 Markov 决策过程的自动翻译问题,提出了一种能够实现正确翻译为标量奖励信号的算法。该算法适用于 omega 正则语言对时态较为严格的情况,并使用了最新的基于转义的自动翻译技术。
PDF
a year ago
Prev
Next