- 通过学习深度逆动力学模型进行安全控制器的转移
通过将源系统的控制障碍证书与目标系统的逆动力学神经网络进行整合,我们提出了一种验证控制器正确性的新方法,并通过三个案例研究证明了其有效性。
- 使用大型语言模型和形式验证自动修复 AI 代码
下一代 AI 系统需要强有力的安全保证。本报告研究了神经网络和相关内存安全性质的软件实现,包括空指针引用、越界访问、double-free 和内存泄漏。我们旨在检测这些漏洞,并借助大型语言模型自动修复它们。为此,我们首先通过程序突变的自动化 - 隐式安全集算法的可证明安全强化学习
深度强化学习在许多连续控制任务中表现出卓越性能,但其真实世界应用的一个重要障碍是缺乏安全保证。本文提出了一种无模型安全控制算法 —— 隐式安全集算法,用于合成确保训练过程中可证明安全性的 DRL 代理的安全保障。该算法通过查询黑盒动力函数( - 关于安全的安全贝叶斯优化
研究提出了一种基于安全保证的 SafeOpt 算法的改进,通过使用最新的高斯过程界限来保留所有的理论保证,并且引入了 Lipschitz-only Safe Bayesian Optimization 算法,它在没有 RKHS 边界假设的情 - 安全多任务贝叶斯优化
将健壮的高斯过程均匀误差边界扩展到多任务设置,通过后验超参数分布的马尔科夫链蒙特卡罗方法计算置信区间,应用贝叶斯优化来安全优化系统并结合模型的测量数据,仿真表明与其他最先进的安全贝叶斯优化方法相比,优化过程可以显著加速,取决于模型的准确性。
- 经证实的时序逻辑任务的神经符号控制在随机系统中的运用
该论文介绍了一种解决具有未知和随机系统动力学以及 LTL 编码任务的神经网络控制器的时间组合问题的新方法,该方法整合了自动机理论和数据驱动的可达性分析工具,通过基本技能的复合生成安全行为,通过数值模拟和实验验证了该方法。
- 安全的深度策略适应
SafeDPA 是一种处理策略适应性和安全强化学习问题的新型强化学习与控制框架,通过在仿真环境中联合学习自适应策略和动力模型,并通过少量现实数据进行动力模型微调,引入基于控制屏障函数的安全过滤器,以确保在现实世界部署中的安全性。SafeDP - 多阶段模型预测安全滤波器:通过增加预测时间窗口减少抖动
通过在长期视野内考虑输入修正方法,缓解震荡问题,提供学习控制器的安全保障,并且在四旋翼实验中证明了其有效性。
- 安全的 POMDP 在线规划方法之护盾技术
本文研究如何通过引入安全限制来解决部分可观察的马尔可夫决策过程(POMDPs)中的不确定性问题,其中通过计算和整合防护盾到在线规划算法(POMCP)中以确保安全性。实验结果表明,该方法在大型 POMDPs 中成功地保证了安全性,并对在线规划 - 针对对抗引导的 LLM 安全性认证
我们提出了第一个具有可验证安全保证的消除 - 检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存 - 混合系统的护盾强化学习
通过使用所谓的野蛮方法,本文提出了构建障碍盾牌的方法,通过系统地选择真实转移函数的样本,以提取基于分区的双人安全游戏的近似有限表示。尽管难以达到严格的安全保证,但我们通过原型实现和 UPPAAL STRATEGO 实验证明了强大的统计安全保 - 学习能力安全关键系统的可证明保证究竟是什么
机器学习在安全关键领域的使用依然存在挑战,论文讨论了这些挑战,提出了一种基于两步验证方法的可证明统计保证实现的方式。
- 延迟观测下的安全屏障
该论文提出针对物理环境中智能体输入和输出信号延迟问题的合成算法,用于计算延迟鲁棒盾牌,以保证机器人在自动驾驶的环境下的安全执行,并在实际驾驶模拟器中验证实现效果。
- 验证在分布转移和长尾数据下的现代视觉架构上的符合预测
本文利用大规模数据集和模型对多种 conformal 方法和神经网络家族的性能进行了实际评估,证明了这些方法在分布转移和长尾设置下的性能严重下降,需要了解这些方法的局限性以在实际应用和安全关键应用中部署
- 随机特征和 NTK 特征的稳定性、泛化性和隐私性:精确分析
本文研究了采用经验风险最小化 (ERM) 训练的模型在面对强黑盒攻击时的安全性,并提供了其模型稳定性和特征对齐方面的结果,揭示了隐私强度随一般化能力增强增强的规律,并展示出其结果在实验中得到了很好的验证。
- 使用控制李雅普诺夫障碍函数进行安全机器人控制的强化学习
本文研究使用控制李亚普诺夫壁函数(CLBF)来分析安全性和可达性,使用 Lyapunov 壁演员 - 评论家(LBAC)算法进行数据驱动寻找控制器,以实现无模型的强化学习在机器人控制中的广泛应用。在模拟实验和真实机器人控制实验中,实验结果显 - SABLAS: 黑箱动态系统安全控制学习
本文提出了一种新的方法,用于从黑盒动态系统中学习安全控制策略和屏障证书,无需精确的系统模型,并证明了安全证书在黑盒系统上成立。
- 基于场景分解的安全强化学习在复杂城市环境下的导航
我们提出了一种基于模块化的决策算法,以自主导航十字路口的挑战,通过安全机制,置信度更新技术和场景分解方法,提高了行车安全性和决策鲁棒性,并在复杂的十字路口情境中表现了优越性。
- AAAI基于障碍函数的端到端安全强化学习在安全关键型连续控制任务中的应用
本文提出了一种控制器架构,该架构将模型自由的强化学习控制器与利用控制屏障函数和未知系统动态的模型控制器相结合,以确保学习过程中的安全,并利用高斯过程对系统动态进行建模和不确定性分析。
- 基于学习控制的线性模型预测安全认证
本文提出模型预测安全认证 (MPSC) 方案,用于保证学习型控制器的安全性,并拓展安全状态集合的方法是使用基于场景优化的数据设计过程。