- 支持强化学习的设定点控制
本文提出一种增强学习和反馈控制相结合的方法,其中反馈控制可以改善系统激发问题并提高收敛速度,这对于实现快速和准确的现实控制非常重要。作者在模拟和双水箱实验中评估了该方法并获得了有希望的结果。
- 离线监督学习 VS 在线直接策略优化:神经网络最优反馈控制的比较研究和统一训练范式
本文旨在寻找以神经网络为基础的反馈控制器,以高效地解决最优控制问题。研究表明,在线直接政策优化和离线监督学习这两种方法中,离线监督学习的优化和训练时间更具优势,并提出了一种称为 'Supervised Pre-train and Fine- - 机器人控制系统中的行为树
本文将给出控制论角度下,关于机器人中行为树的研究领域。行为树的主要思想是利用模块化、层次结构和反馈控制等工具来处理机器人控制系统的复杂性,本文描述了这些概念在理论分析、实际设计及扩展方面的运用,以及与控制论和机器人学中其他思想的联合应用。
- 具有保证的非线性系统辨识的主动学习
通过提出一种主动学习的方法,该方法不断进行轨迹规划,轨迹跟踪和重新估计系统,并展示了该方法以参数速率估计非线性动态系统,类似于标准线性回归的统计速率。
- MM反馈放松控制的规律性与稳定性
本文提出了一种基于松弛控制正则化和一般探索奖励的鲁棒反馈控制方法,针对多维连续随机离散时间问题,提出了一种实现鲁棒决策的强化学习启发式方法,该方法表现出强大的鲁棒性,并在参数扰动下稳定可靠。
- 广告投放中的多变量控制竞价优化
本研究研究了在 RTB 环境下,广告主如何在预算限制的情况下最大化转化量,作者们通过使用线性规划和基于反馈控制方法来推导出最优出价策略,同时提出了多变量控制系统来解决应用问题,并使用淘宝真实数据进行了验证。
- 从经验和模仿中学习灵巧的操作策略
本研究探索了学习控制方法对于机械手进行非抓握性操作的影响,通过深度学习和最近邻等方法实现了控制器的泛化。研究表明仅基于时间轨迹的控制器仅需要少量训练数据即可构建,同时多个控制器可以进行插值形成更全局的控制器。
- 路径积分导向的策略搜索
本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法,该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务,该方法在使用先前的技术基础上进行了改进,使用了基于 PI2 的无模型本地优化器和使用 on-policy - SINDYc 的稀疏非线性动力学识别
使用回归方法推断非线性动力系统,能够包括外部输入和反馈控制。
- 网络化遗失通道控制的稀疏分组预测控制
本文研究在存在数据包丢失的情况下实现反馈控制,提出采用稀疏促进优化策略来减少数据包大小并满足稳定性约束。