policy synthesis | BriefGPT

关键词policy synthesis

搜索结果 - 7

记忆一致的神经网络用于模仿学习
模仿学习通过利用专家演示大大简化了策略合成，我们重新考虑了行为克隆样本便捷地训练策略，设计了对抗错误现象的模型类，使用 MCNN 策略在 9 个模仿学习任务上得到了显著的性能提升。
PDF9 months ago
基于折扣线性时态逻辑的政策综合和强化学习
通过降低时间折扣，将 LTL 适用于 RL 并在 Markov 决策过程中综合策略，以解决小扰动敏感性问题。
PDFa year ago
受限马尔科夫决策过程中的安全策略改进
该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。
PDF2 years ago
基于样本的凸型风险衡量上、下界：政策合成和验证应用
本文提出了一种基于样本的方法来解决固有于自主系统中变化环境的风险问题，能够生成高置信度的验证声明和快速合成保证实现最低系统性能的风险感知策略，并在仿真中验证了一种多主体协作系统和其风险感知控制器的优越性能。
PDF2 years ago
强化学习用于具有概率满足保证的时间逻辑控制合成
本研究提出一种基于强化学习的控制策略综合算法，用于最大化满足作为线性时序逻辑公式给出的高级控制目标的概率。该算法将 LTL 规范转换为限制性确定布琦自动机，再与具有不确定工作空间特性、结构和智能体行为的 PL-MDP 合并进行训练，从而生成
PDF5 years ago
带安全可达目标的 POMDP 有界策略合成
本文研究了带安全可达性目标的部分可观测马尔可夫决策过程（POMDPs），提出了一种基于目标约束信念空间和符号约束的方法来合成能实现安全可达性目标的策略，并通过实验结果表明，该方法能够在大量信念空间中高效地搜索有效策略。
PDF6 years ago
逻辑约束强化学习
本篇研究提出了第一种基于无模型的强化学习算法，用于综合一个未知的马尔可夫决策过程，并满足线性时间性质的要求。我们还展示了这个算法的性能通过一组数值实例进行了评估，并发现所提出的算法相比现有方法在合成所需的迭代次数方面有一个数量级的改进。
PDF6 years ago