发展安全可个性化的自动驾驶车辆的偏好学习方法

Oct, 2023

发展安全可个性化的自动驾驶车辆的偏好学习方法

A Preference Learning Approach to Develop Safe and Personalizable Autonomous Vehicles

Ruya Karagulle, Nikos Arechiga, Andrew Best, Jonathan DeCastro, Necmiye Ozay

TL;DR介绍了一种用于自动驾驶车辆的偏好学习方法，确保遵守交通规则。通过将描述交通规则的优先级顺序的信号时态逻辑（STL）公式纳入学习框架中，利用参数加权信号时态逻辑（PWSTL）将以成对比较为基础的安全保障偏好学习问题进行了形式化，并提出了一种解决此学习问题的方法。通过我们的方法给出的可行权重估值，得到了一个加权的 STL 公式，可用于正确且可定制的控制器综合。通过在涉及停车标志和行人横道的两个不同的模拟驾驶场景中进行人体实验研究，证明了我们方法的性能，与现有的偏好学习方法相比，在捕捉偏好方面取得了有竞争力的结果，并在关注安全性时明显优于其他方法。

Abstract

This work introduces a preference learning method that ensures adherence to traffic rules for autonomous vehicles. Our approach incorporat

preference learning traffic rules autonomous vehicles parametric weighted signal temporal logic safety-guaranteed preference learning

发现论文，激发创造

信号时态逻辑神经预测控制

通过直接学习神经网络控制器以满足信号时间逻辑 (STL) 的要求，以确保长期机器人任务的安全性和满足时间规范的挑战。同时，采用备用策略以保证控制器故障时的安全性。该方法可以适应不同的初始条件和环境参数，并在复杂的 STL 规范任务中以 10 倍至 100 倍速度快于传统方法。

Sep, 2023

强化学习中策略和未知安全约束的并发学习

我们提出了一种新的方法，同时学习安全的强化学习控制策略并识别给定环境的未知的安全约束参数，通过使用参数化信号时态逻辑 (pSTL) 安全规范和小规模初始标记数据集，将问题作为双层优化任务，通过使用拉格朗日变体的双延迟深度确定性策略梯度 (TD3) 算法的约束策略优化，并结合贝叶斯优化来优化给定 pSTL 安全规范的参数。通过全面的案例研究实验证实了该方法在各种环境约束形式上的有效性，始终产生高回报的安全强化学习策略。此外，我们的研究结果表明成功学习了 STL 安全约束参数，与真实环境安全约束具有高度一致性。我们模型的表现与完全了解安全约束的理想情况非常相似，表明其能够准确识别环境安全约束并学习遵守这些约束的安全策略。

Feb, 2024

偏好基于规划的随机环境：从部分有序时态目标到最受欢迎的策略

使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划，将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策，从而综合出最喜欢的策略。

Mar, 2024

基于时间上的迁移学习与粗粒度咨询自主权的交通优化

通过引入时间转移学习算法，本文研究了基于深度强化学习的粗粒度建议式自主驾驶在交通流优化中的潜力。

Nov, 2023

不确定性下的安全控制

本文提出了一种新的逻辑 PrSTL 作为表达随机性质和强制其概率保证的表现语言，并展示了如何使用这种逻辑对具有随机性质的智能物理系统进行控制器合成，其关键特点是适应性逻辑并随着系统遇到附加数据而变化，并通过合成多种情况下无人机和自主车辆的控制器来演示我们的方法。

Oct, 2015

Q-Learning 用于满足信号时序逻辑规范的稳健性

该论文提出了一种利用近似解决 STL 综合问题的方法，通过最大化已知的效果指标来学习未知随机动态系统的最优策略，在模拟中验证了该方法的有效性。