- ACL随机桥作为参数有效调整的有效正则化方法
本研究提出使用隐性随机桥作为正则化方法来优化参数效率调节方法(PETs)中的中间状态,并表明这种正则化方法可以适用于不同领域和任务的 PLM。
- 逻辑约束部分可观测多智能体马尔科夫决策过程的最优控制
本文讲述了一种基于特定约束的自主系统与多智能体的优化控制方法,以实现其最大化收益并同时满足时间逻辑约束的概率足够高。
- 基于强化学习的混合整数最优控制:以混合动力车辆能量管理为案例研究
本文提出了一种称为 TD3AQ 的新颖的连续 - 离散强化学习算法,用于解决复杂的混合整数最优控制问题,并在混合动力汽车能量管理问题上进行了评估。
- 使用学习动作残差的连续多功能跳跃
提出了一种基于优化控制和强化学习相结合的分层框架,实现了四足机器人连续跳跃运动的控制,通过在模拟环境中的训练,该方法可以直接应用到真实机器人中,实现多方向、连续性跳跃。
- 使用 Wasserstein 距离的分布鲁棒方法实现遗憾最优控制
本文提出了一种基于分布鲁棒性的方法来控制线性离散动态系统,在随机加性干扰作用下具有二次成本。假设干扰过程的基础概率分布为未知的,但被认为位于给定的分布半径球中,用 Wasserstein 距离求得。在此框架中,设计了严格因果线性干扰反馈控制 - 有限维谱动力学嵌入实现随机非线性控制
使用具备无穷维特征的 Spectral Dynamics Embedding 结合实际的有限维截断近似来控制非线性随机系统的 Spectral Dynamics Embedding Control(SDEC)算法,探索了其截断近似和有限采样 - 在欧拉方程上的最优质量输运
本论文研究了 Euler 方程下刚体的最优控制及其与最优质量输运问题(OMT)的关系,提供了静态和动态欧拉 OMT 的分析和数值结果。
- 离线监督学习 VS 在线直接策略优化:神经网络最优反馈控制的比较研究和统一训练范式
本文旨在寻找以神经网络为基础的反馈控制器,以高效地解决最优控制问题。研究表明,在线直接政策优化和离线监督学习这两种方法中,离线监督学习的优化和训练时间更具优势,并提出了一种称为 'Supervised Pre-train and Fine- - MM在线非随机控制入门
本文介绍了一种新兴的控制理论,引入了在线非随机控制的概念,将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景,实现了可证明保障的新方法,使得控制的目标不再是静态指定的,而是在一定策略下取得低的遗憾值。
- 神经常微分方程作为非线性最优控制的反馈策略
本文提出了基于神经常微分方程(Neural ODEs)的神经控制策略,将控制策略优化问题转化为一个 Neural ODE 问题,有效地利用动态系统模型,展示了这种确定性神经控制策略在两个受控系统中的功效:控制的 Van der Pol 系统 - 量子技术中的量子最优控制。欧洲研究的现状、愿景和目标战略报告
本文综述了量子优化控制的最新进展,包括对开放量子系统可控性的理解、量子控制技术在量子技术中的应用、主要挑战以及未来发展路线图。
- 通过系统识别低维线性模型,构建基于模型的安全和基于模型无关的强化学习的桥梁
本文提出了一种新方法,通过显式地找到受 RL 策略控制的系统的低维模型,并在简单模型上应用稳定性和安全保证,将基于模型的安全性与基于模型的无模型强化学习相结合。使用复杂的二足机器人 Cassie 和其基于强化学习的行走控制器作为示例,本文表 - 利用随机平滑技术优化控制非光滑动力系统
本文利用随机平滑 (Randomized Smoothing) 方式解决了在非光滑动力系统中,优化控制算法(Optimal Control Algorithm)的问题,并通过随机化差分动态规划 (Randomized Differentia - AAAI使用算子学习解决偏微分方程约束控制问题
本文提出了一种新颖的框架,引入了 PDE 解算子的代理模型,并结合特殊正则化技术解决 PDE 约束下的最优控制问题,该框架可以应用于数据驱动和无数据情况下的最优控制问题,并成功地将其应用于不同的最优控制问题。
- 离线强化学习作为反探索策略
本研究提出了一种新的离线强化学习代理,将基于奖励的勘探法的探索奖励从奖励中减去,以使策略保持在数据集的支持范围内,并连接该方法到对学习策略向数据集的普遍约束的正则化,通过基于变分自动编码器的预测误差的奖励进行实例化,证明了该代理在一组连续控 - 均场博弈和均场类型控制的数值方法
本文回顾了关于数值方法在 Mean Field Games 及 Mean Field Control 类型问题中应用的各种方面,包括基于线性二次型、偏微分方程数值方案、Kolmogorov-Fokker-Planck 方程优化技巧、基于单调 - ICLR通过闭环控制实现稳健神经网络
本文提出一种通过闭环控制方法解决神经网络鲁棒性问题的方法,通过嵌入数据流形的几何信息和优化控制,以实现对各种数据干扰的鲁棒性,本方法为通过闭环控制提高神经网络鲁棒性的首次尝试。
- MM使用嵌入式 LQR 控制器的深度强化学习
本文介绍了将经典的 LQR 控制方法与强化学习相结合解决动作离散、无法满足目标状态的问题,并针对离散和连续动作方法进行对比实验,实验结果表明将 LQR 控制与强化学习相结合可以提高性能。
- 逻辑回归 Q-Learning
本研究提出了一种基于正则化线性规划的强化学习算法 QREPS,相对于相似的 REPS 算法增加了 Q - 函数来实现无模型训练,并提供了一种策略评估的凸损失函数来替代传统的平方 Bellman 误差,同时提供了一种实用的最小化损失函数的鞍点 - 利用 PDE 方法从两个依赖于历史的专家建议预测二进制序列
本文研究通过在线机器学习的技术,建立了一个 “股票预测问题” 的模型,探讨了投资者和市场策略,并使用最优控制、图论和偏微分方程的方法确定了使用两个与历史相关的专家的股票行情预测的性能上下界。