从多任务演示中学习共享安全约束
介绍了一种新颖的反向强化学习问题:代理人必须代表人类执行一系列任务,并希望在行动不符合人类期望时最小化惊讶人类的任务数量,每当人类感到惊讶,代理人会提供人类所期望的行为演示。
May, 2017
本论文提出了一种通过hit-and-run抽样方法,利用任务演示、成本函数以及系统动力学和控制约束知识,学习跨任务共享的未知约束的方法。该方法可以学习系统动力学的不确定性,学习一定量的约束,并且适用于线性和非线性系统的控制。
Dec, 2018
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵IRL的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条件,同时通过仿真实验和现实数据验证了其有效性。
Sep, 2019
为了将RL算法部署到实际场景中并在学习过程中确保安全性,我们提出了使用转移学习方法学习在一个任务环境中如何保持安全性,然后将所学用于约束在学习新任务时的行为,此方法在三个具有挑战性的领域中实证,相比于标准的深度RL技术和以前的安全RL方法,我们的方法不但减少了安全事故,还提高了学习的速度和稳定性。
Oct, 2020
研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法,建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架,并且该方法与之前的工作相比,在离散设置、特定类型约束和环境转移动力学等方面表现更好。
Nov, 2020
本研究提出了一种新的逆强化学习方法,用于学习马尔可夫决策过程模型中人类在复杂环境中制定决策时的约束和偏好,从而在AI与人类的团队中更好的模拟人类行为和提高决策效率。
Feb, 2022
该研究提出了凸约束学习用于强化学习的方法,该方法通过安全演示从具有可能不同奖励函数的共享约束中推断出受约束马尔可夫决策过程(CMDP)中的约束。与以往的方法不同,该方法可以从具有不同未知奖励的演示中学习约束并构建一个凸安全集,从而保证安全性,即使这些安全演示可能是次优的。该方法在表格环境和多个约束条件的连续驾驶模拟中得到了评估,并证明了可以学到安全行驶行为并且可以转移到不同的任务和环境中。
May, 2023
自主代理与人类价值的对齐是部署这些代理到物理环境中时的一个关键挑战,安全性是其中一个重要关注点。为了解决这一挑战,我们提出了一种新的方法,利用一类决策树来从专家示范中进行学习。这些决策树以逻辑公式的形式表示与给定环境相关的一组约束条件。所学到的约束条件随后用于有约束的强化学习框架,实现安全策略的获取。与其他方法不同,我们的方法提供了约束条件的可解释性表示,这在安全关键环境中是一个至关重要的特性。为了验证我们提出方法的有效性,我们在合成基准领域和真实驾驶环境中进行了实验。
Dec, 2023
将基于学习的技术,特别是强化学习,整合到机器人技术中来解决非结构化环境中的复杂问题很具有前景。本文展示了我们如何以原则性的方式将复杂的安全约束强加于基于学习的机器人系统中,从理论和实践的角度进行了展示。
Apr, 2024
在自主机器人领域,确保复杂和动态环境下的安全性和可靠性仍然是一个重大挑战。通过引入安全约束,安全强化学习解决这些问题,但在复杂驾驶环境等复杂环境中仍面临挑战。为了应对这些挑战,我们提出了安全约束奖励(Safe CoR)框架,这是一种利用两种类型的专家演示(重点是性能优化的奖励专家演示和优先考虑安全性的安全专家演示)的新方法。通过利用约束奖励(CoR),我们的框架指导智能体平衡奖励总和的性能目标与安全约束。我们在包括safety gym、metadrive和真实世界的Jackal平台在内的多种环境中测试了所提出的框架。在真实世界的Jackal平台上,我们提出的框架提高了算法的性能39%并减少了约束违规88%,证明了该框架的有效性。通过这种创新方法,我们期望在现实世界的性能方面取得重大进展,从而在安全可靠的自主机器人领域产生深远影响。
Jul, 2024