BriefGPT.xyz
Ask
alpha
关键词
act-then-measure heuristic
搜索结果 - 1
执行 - 衡量策略:在活跃衡量中的部分可观测环境中强化学习
本文研究马尔可夫决策过程中的行动 - 条件无噪声可观察 MDS(ACNO-MPDs),提出了基于 “先控制再观察” 启发式的强化学习算法,并在部分可观察环境中展示了其卓越性能。
PDF
a year ago
Prev
Next