BriefGPT.xyz
Ask
alpha
关键词
safe planning
搜索结果 - 1
IJCAI
ConstrainedZero: 基于学习的概率性失败代理和自适应安全约束的机会约束的 POMDP 规划
在不确定环境中安全规划时,智能体需在效用和安全限制之间进行平衡。本研究提出了基于信念空间的 ConstrainedZero 政策迭代算法,通过学习神经网络近似的最优值和策略,并引入了额外的网络头来估计置信度下的失败概率,以指导在线蒙特卡洛树
→
PDF
2 months ago
Prev
Next