BriefGPT.xyz
Ask
alpha
关键词
control capability
搜索结果 - 1
融合丢失不确定性和轨迹采样的实用概率模型深度强化学习
本研究提出了一种基于神经网络的概率模型强化学习方法,利用 Monte-Carlo dropout 和轨迹采样相结合的 DPETS 框架来稳定预测系统不确定性,并通过设计适应神经网络拟合误差的损失函数实现更准确的概率模型预测。在评估中,DPE
→
PDF
10 months ago
Prev
Next