神经符号元强化先行学习在非静态环境中实现安全的自动驾驶

Sep, 2023

神经符号元强化先行学习在非静态环境中实现安全的自动驾驶

Neurosymbolic Meta-Reinforcement Lookahead Learning Achieves Safe Self-Driving in Non-Stationary Environments

Haozhe Lei, Quanyan Zhu

TL;DR该研究介绍了一种基于神经符号元强化前瞻学习（NUMERLA）的在线元强化学习算法，采用前瞻更新机制实现了自动驾驶模型在非稳态城市人车交互场景下的实时适应性和安全性。

Abstract

In the area of learning-driven artificial intelligence advancement, the integration of machine learning (ML) into self-driving (SD) technology stands as an impressive engineering feat. Yet, in real-world applications outside the confines of controlled laboratory scenarios, the deployme

learning-driven artificial intelligence self-driving technology safety efficiency online meta-reinforcement learning

发现论文，激发创造

基于神经符号深度强化学习的安全自主驾驶政策

本研究介绍了一种名为 DRLSL 的新的神经符号模型自由深度强化学习方法，将深度强化学习与符号逻辑知识驱动推理相结合，可以在现实环境下实现安全学习，以实现自主驾驶政策，并可在训练和测试阶段成功避免不安全的行为，且比传统的深度强化学习方法更具有一般性和更快的收敛速度。

Jul, 2023

基于神经符号元强化学习的交易模型

本文探讨了在存在概念漂移的情况下，使用元强化学习来进行短期金融交易，并提出了使用逻辑程序归纳来发现价格序列中经常出现的符号模式，以提高元强化学习算法的性能。通过对真实数据的实验，我们发现元强化学习算法比传统的强化学习算法表现更好，并且通过学习符号特征可以提高其性能。

Jan, 2023

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

基于神经符号混合方法的驾驶员碰撞警告

本文介绍了两种实现自主驾驶的算法：深度学习和自适应神经符号网络系统。本研究旨在结合深度学习的目标识别和跟踪技术以及自适应神经符号网络代理来改善物体识别性能，并利用雷达传感器实现了对汽车行驶轨迹的准确检测。

Mar, 2022

学习感知交互式自主安全性

为了确保机器人等自主车辆的广泛部署，本文提出了一种新的闭环范式用于综合安全控制策略，明确考虑系统在可能的未来情景下的演变不确定性，通过物理动力学和机器人的学习算法共同推理，利用对抗深度强化学习进行放大，展示了该框架能够处理贝叶斯信念传播和大规模预训练神经轨迹预测模型引起的隐式学习。

Sep, 2023

自主车辆上的安全强化学习

本研究探讨了如何通过预测来约束探索，从而实现强化学习在自动驾驶中的安全学习。

Sep, 2019

自主高速公路驾驶增强安全的深度强化学习

本文提出了一种安全的深度强化学习自动驾驶系统，采用了基于规则和基于学习的方法，其中包括手工制作的安全模块和动态学习的安全模块，通过模拟环境的实验结果证明了其优异的性能。

Oct, 2019

安全行车及行人感知自动驾驶的认知水平 -$k$ 元学习

为了确保自动驾驶环境的安全性并应对车人交互挑战，通过考虑行人响应的认知等级，提出了一种 LK-MRL 算法，它能够使自动驾驶车辆适应各种人类行为，并在城市交通模拟器中评估算法的作用，并展示其推理和高层次推理能力，以确保交通安全。

Dec, 2022

神经符号 AI：第三波

本文探讨了神经符号计算技术中深度学习和知识表示应该如何有机结合，通过 20 年来的相关研究结果，为下一个 AI 系统的关键性成分做出探索，以神经符号系统的视角提出 AI 技术应该在信任、安全、可解释性和问责制方面有所提升和解决的方向和挑战。

Dec, 2020

基于可微凸规划的约束元元强化学习用于可调适安全保证

通过元学习方法，本文研究了在非稳态环境下确保安全性的独特挑战，并采用可微凸规划的连续凸约束策略更新，以实现在受限环境中的元学习和快速任务适应。

Dec, 2023