AAAIJan, 2024

长期安全强化学习与二进制反馈

TL;DRLoBiSaRL 是一种安全的强化学习算法,应用于有约束的马尔科夫决策过程中,通过二进制安全反馈和未知的随机状态转移函数来保证长期安全约束。