BriefGPT.xyz
Ask
alpha
关键词
fixed-horizon
搜索结果 - 1
AAAI
用于稳定强化学习的固定时间差分方法
本文提出了一种解决强化学习中含有稳定性问题的新型算法 —— 固定时间段时序差分算法,该算法通过对当前概率及其后 $h$ 步概率分别采用 $TD$ 算法进行预测,具有一定的优势。
PDF
5 years ago
Prev
Next