Aug, 2023

相当好的控制:何时近似解法比近似模型更好

TL;DR现有的最优控制方法在处理真实系统中常遇到的复杂性(包括维度、过程误差、模型偏差和数据异质性)时遇到困难。最优控制方法通常寻求简化模型以适应,但何时适用于近似的、简化的模型的最优解胜过适用于更准确的模型的近似解尚未得到充分回答。深度强化学习(DRL)中的算法和计算进展为我们解决这些问题提供了可能性。DRL 方法迄今主要应用于游戏或机器人机械学中,在确切已知规则下运行。我们在没有了解或企图推断进程模型的情况下,展示了使用深度神经网络进行 DRL 算法的能力,成功近似求解了一个非线性三变量渔业模型的解(“策略函数” 或控制规则)。我们发现强化学习代理通过简化问题来获得可解释的控制规则。我们展示了 DRL 所获得的策略在渔业管理中既更具利润性,也更具可持续性,胜过了任何固定死亡率政策 —— 渔业管理中的标准政策家族。