- 自适应贝叶斯优化在高精度运动系统中的应用
在这项工作中,我们提出了一种基于 GoOSE 算法的实时纯数据驱动的自适应控制方法,用于在线调整低级控制器参数,从而处理性能和稳定性的要求,并通过修改负载和参考步长将其与插值约束优化方法进行比较,用于评估算法在半导体行业应用中实现的真实精密 - MTLight:高效多任务强化学习用于交通信号控制
车辆信号控制对缓解现代城市交通拥堵有着重大影响。近年来,深度强化学习被广泛应用于该任务,表现出有希望的性能,但也面临许多挑战,如有限的性能和样本效率。为了应对这些挑战,我们提出了 MTLight,通过学习大量交通指标来增强智能体的观察,并构 - 使用随机浅层 ReLU 网络进行逼近,及其在模型参考自适应控制中的应用
用 ReLU 网络和随机生成的权重和偏置,在高概率下达到高于所需精度的近似,填补了关于神经网络控制中的近似性质的证明缺失。
- 基于 ANROA 的新型多功能并网太阳能转换系统控制方法
提出并讨论了一种基于新的 Rain 优化算法 (ANROA) 方法的自适应控制方法,用于三相并网太阳能光伏系统
- 自适应线性二次控制的非渐进遗憾分析及模型误差
对于自适应控制中的预先训练策略,我们研究了一个自适应线性二次控制问题,在这个设置中学习者具有动力学的一组基矩阵的先验知识。我们提出了一种使用这个先验知识的算法,并对通过与系统进行 T 次交互后的预期遗憾给出了上界。
- 通过集合成员关系学习控制动力学的不确定性集合:非渐进性分析
该研究提供了在线构建并考虑模型不确定性集合的集合成员估计的非渐进边界,并将其应用于更新模型预测控制的不确定性集合。通过与基于最小二乘估计置信区域的控制设计相比较,数值结果表明了鲁棒自适应控制器的性能与离线最优模型预测控制器逼近的速度。
- 基于在线深度强化学习的资源流调控优化建筑工作和现金流
这篇论文通过建立数学模型和引入深度强化学习(DRL)方法,实现了对建筑项目的资源流和资金流的连续自适应优化控制,提供了建筑项目管理中采用 DRL 技术的可行性,对工作、资源和资金流的自适应控制和优化做出了贡献。
- 使用深度强化学习的自适应 PD 控制在具有随机时间延迟的本地远程遥操作中
通过增强学习实现自适应控制方法来处理时延控制问题,通过采用模型式增强学习方法,该方法能够稳定解决在 290ms 以内的时延通信问题。
- IJCAI缺失数据下的交通信号控制强化学习方法
本文介绍了如何使用强化学习来解决城市道路网络中交通信号控制的问题。我们提出了两种解决方案:第一种方案使用状态值估计来进行自适应控制,第二种方案同时使用状态值和奖励值估计来训练强化学习模型进行自适应控制。我们在合成和实际道路网络交通方面进行了 - 强化学习中的观察器 - 反馈 - 前馈控制结构
本文提出使用结构化神经网络进行基于强化学习的非线性自适应控制,聚焦于部分可观测系统和前馈结构,将观测器动态建模为循环神经网络,采用标准网络用于控制器。这种结构化方法在降低计算复杂性的同时,提供了可理解的控制结构,并在模拟中得到了显著的训练速 - 使用 Actor-Critic 深度强化学习进行自动调节 PID 控制
本文探讨了如何利用强化学习预测苹果采摘机器人的最佳 PID 参数。通过对基于 ROS 框架的模拟机械臂实现 Advantage Actor Critic(A2C)算法,并且进行了调整一个致动器和两个立动器的试验,结果表明该模型可以预测比设置 - Wordle 的强化学习方法:一种 POMDP / 自适应控制方法
本文利用新的增强学习方法解决了流行的 Wordle 谜题,这种方法广泛适用于动态系统的自适应控制和部分可观察马尔科夫决策过程(POMDP)问题的类别,并且优于多种启发式方法;该方法可提供逼近值空间和 rollout 方法的直接实现,并在较低 - 使用神经形态自适应控制算法进行机械臂的时间域学习
通过使用基于脉冲神经网络的自适应控制算法,本文探讨了机器人手臂学习其可到达位置(包括干扰)的能力,演示了这种自适应控制算法使得机器人手臂可以在新的动态环境下学习并更快地完成任务,同时保持了能源效率。
- 多个未知线性系统的联合学习稳定化
本研究提出一种基于学习的联合稳定化算法,通过对不稳定状态轨迹数据的处理快速学习所有系统的稳定化策略,从而解决了基于联合多系统自适应控制的快速可靠联合稳定化问题。
- 面向持续学习的块上下文 MDPs
本文提出使用块上下文 MDP 框架来研究连续强化学习情境,该框架用于解决非稳态性和丰富的观察设置所带来的挑战,并提出了一种新算法以实现零 - shot 自适应,并在多个非稳态情境中取得了良好的表现。
- 通过激励持久性来提高神经网络的鲁棒性
研究表明,使用保持激励持久性(PoE)的方法作为指导,将梯度下降更新限制在收敛于真实参数的参考持久激励轨迹上可以提高神经网络对抗攻击的鲁棒性。
- 强化学习中基于奖励偏置的最大似然估计
该研究提出了一种针对自适应控制的方法 - Reward-Biased Maximum Likelihood Estimate(RBMLE),旨在解决 Markov 链控制中的 “探索与开采问题” 和 “双控制问题”,同时在最优化参数时采用了 - 部分可观察线性动力系统的对数遗憾界
研究如何在部分可观测线性动态系统中进行系统识别和自适应控制,提出了一种基于模型评估的自适应控制在线学习算法,可通过与环境的交互来估计模型动态,通过在线梯度下降更新控制器并改善控制器效能,该算法达到了未知系统的自适应控制的 Polylog ( - 基于主动推理的机器人手臂新型自适应控制器
本文提出了一种新型的主动推理控制器 (AIC),它是一种适用于工业机器人的自适应控制方案,能够应对大型模型不确定性,同时还能在大型未建模动态的情况下保持高性能。该方法基于主动推理,从控制角度推导出的模型无关的控制定律,能够比目前最先进的模型 - 有限时间自适应 LQ 系统稳定化
利用随机线性反馈的新方法,本文针对具有未知动态的线性系统稳定问题,通过随机方法提供了稳定的有限时间概率保证。