通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求,以确保长期机器人任务的安全性和满足时间规范的挑战。同时,采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数,并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。
Sep, 2023
本文提出了基于信号时间逻辑和控制障碍函数的神经网络控制器综合算法,以优化指定性能目标并满足硬性约束条件,在飞行器和单轮车等测试系统上进行了验证。
Oct, 2022
研究利用时序逻辑生成奖励对深度强化学习进行实时控制,并在多项复杂连续控制基准测试中证实了新模型相较于现有模型更为合适。
Dec, 2022
提出了一种结合逻辑约束强化学习算法和进化算法的框架,用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略,并且该框架以理论保证为支撑,成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略,以及证明了我们的方法的实践效果。
Apr, 2023
本文提出了有效的技术来综合安全集合和控制律,通过基于凸优化问题的近似来提供改进的可伸缩性质,其中一种方法仅需要近似的线性系统模型和 Lipschitz 连续的未知非线性动力学,展示了数字示例,包括一个自主车队。
Nov, 2017
该论文提出了一种利用近似解决 STL 综合问题的方法,通过最大化已知的效果指标来学习未知随机动态系统的最优策略,在模拟中验证了该方法的有效性。
Sep, 2016
本文研究利用 Parametric Signal Temporal Logic 设计无监督的时间序列数据特征以解决数据过载问题,以实现对复杂模型和实验产生的大量数据进行自动分类。作者通过几个示例说明了这种技术如何生产可解释性的公式,适合进行分析和理解。
Dec, 2016
从观察行为中学习 Signal Temporal Logic (STL) 的要求,通过结合贝叶斯优化和信息检索技术,同时学习 STL 公式的结构和参数,提高了对于需求挖掘的有效性,进一步推动了在计算机物理系统中的研究。
May, 2024
针对由马尔可夫决策过程建模的概率系统,考虑在部分已知环境下综合控制策略,环境由一组马尔可夫链建模,其中每个马尔可夫链描述了环境的不同模式,但环境的模式对于系统是未知的。控制目标为最大化系统满足给定规范的期望概率和最大化最坏情况下满足规范的概率。
Mar, 2012
该论文介绍了一种解决具有未知和随机系统动力学以及 LTL 编码任务的神经网络控制器的时间组合问题的新方法,该方法整合了自动机理论和数据驱动的可达性分析工具,通过基本技能的复合生成安全行为,通过数值模拟和实验验证了该方法。
Nov, 2023