BriefGPT.xyz
Ask
alpha
关键词
numerical policy
搜索结果 - 1
S-REINFORCE: 一种神经符号化策略梯度方法,用于可解释的强化学习
该研究提出一种新的强化学习算法 S-REINFORCE,旨在为动态决策任务产生可解释的策略,该算法利用神经网络(NN)和符号回归器(SR)两种类型的函数逼近器来生成数值和符号策略,分别捕捉 NN 组件学到的生成可能动作的数值概率分布以及 S
→
PDF
a year ago
Prev
Next