BriefGPT.xyz
Ask
alpha
关键词
l*-algorithm
搜索结果 - 1
学习 POMDP 策略的可解释且性能更好的表示
部分可观察马尔科夫决策过程(POMDP)的策略通常需要记忆,本文介绍了一种使用 L*- 算法学习策略的自动机表示的方法,相比于策略的表格表示,生成的自动机规模更小、更易解释,同时在学习过程中,我们的启发式方法甚至可以改善策略的性能,相较于直
→
PDF
6 months ago
Prev
Next