Apr, 2024

针对网络物理系统和机器人系统的随机在线优化

TL;DR我们提出了一种新颖的基于梯度的在线优化框架,用于解决在网络物理和机器人系统中经常出现的随机规划问题。我们的问题形式化考虑了模拟网络物理系统的约束条件,该系统通常具有连续的状态和动作空间,是非线性的,并且状态只被部分观测到。我们还在学习过程中将动力学的近似模型作为先验知识纳入其中,并表明即使是动力学的粗略估计也能显着改善算法的收敛性。我们的在线优化框架包括梯度下降和拟牛顿方法,并在非凸环境中对我们的算法进行了统一的收敛性分析。我们还研究了系统动力学建模误差对算法收敛速度的影响。最后,我们在柔性梁、四足行走机器人的仿真和乒乓球机器人的实际实验中评估了我们的算法。