BriefGPT.xyz
Ask
alpha
关键词
stochastic state transition function
搜索结果 - 1
AAAI
长期安全强化学习与二进制反馈
LoBiSaRL 是一种安全的强化学习算法,应用于有约束的马尔科夫决策过程中,通过二进制安全反馈和未知的随机状态转移函数来保证长期安全约束。
PDF
6 months ago
Prev
Next