Jul, 2023

神经网络控制器及其符号表示的令人担忧特性

TL;DR我们对简单强化学习基准问题中控制器的鲁棒性提出了关注。我们关注神经网络控制器及其低神经元和符号抽象。即使典型控制器达到较高的平均回报值,它仍会产生大量持续低回报的解,这是一种高度不受欢迎的特性,容易被对手利用。我们发现简单控制器容易产生更多持续的坏解。我们提供了一种系统鲁棒性研究算法,并使用计算辅助证明方法证明了持续解的存在以及在某些情况下的周期轨道。