关键词neural network policies
搜索结果 - 11
- 基于学习的具有神经网络策略的随机动力系统的验证
我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务,并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速,并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖 - CGD:无人机轨迹规划的约束引导扩散策略
使用约束引导扩散(CGD)的混合学习 / 在线优化方案,将传统以优化为基础的规划器与模仿学习相结合,生成无碰撞、动态可行的轨迹,以解决计算成本高、动态可行性不明确和适应新约束的问题。
- 带有正式保证的随机控制系统中的组合策略学习
通过学习神经网络策略及其与 rech-avoid 超融合 (Probabilistic Reach-Avoid Supermartingales, RASM) 的组合,提供了一种新的方法来保证复杂控制任务中神经网络策略的行为满足特定规范的概 - 通过自主神经动态策略实现端到端稳定的模仿学习
本文介绍了一种基于自主动力学系统的 Autonomous Neural Dynamic Policies(ANDPs),其优点在于比传统的稳定动力学系统策略更加灵活。实验结果表明 ANDPs 在几种模仿学习任务中表现出出色的灵活性和能力。
- ICLR随机控制系统中的稳定策略学习
本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略,结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。
- 从像素到四肢:四足动物运动的分层学习
使用分层强化学习的方法,我们设计了一个四足机器人的策略网络,使之可以对复杂场景和地形进行动态腿部动作并同时处理视觉输入,体现障碍物回避和路径规划,此网络同时学习高层次神经网络策略和底层神经网络策略,达到相对于不分层的神经网络策略更高的学习效 - AAAI内省学习
本文介绍了一种基于 Introspection Learning 的反向传播算法,使用该算法可直接向神经网络提问,无需通过与环境的交互,该算法不依赖强化学习算法,其返回的状态可用于检测策略的健康状况或塑造策略以满足安全约束的多种方式,证明了 - ICML约束策略优化
提出了一种新的基于 Constrained Policy Optimization (CPO) 算法的强化学习策略搜索方法,可保证在每次迭代中实现约束满足,能够应用于高维控制问题,例如,在机器人运动中,智能体必须满足安全性约束条件。
- ICML无关模型的元学习用于深度网络的快速适应
本文提出了一种模型无关的元学习算法,通过少量的训练样本,使用梯度下降算法来训练模型的参数,实现了对新学习任务的快速调整和学习,导致在少量图像分类、回归和神经网络政策优化方面表现出最先进的性能。
- 神经网络策略的对抗性攻击
本研究研究了针对神经网络策略的对抗攻击,发现现有的对抗样本制作技术能够很好地降低训练策略的测试时间性能,并且一些小干扰就能引起显著性能下降。
- 路径积分导向的策略搜索
本文提出了一种通过策略搜索学习复杂的反馈控制策略的方法,该策略可将高维度感知输入映射到电机扭矩以执行具有不连续性接触动力学的操纵任务,该方法在使用先前的技术基础上进行了改进,使用了基于 PI2 的无模型本地优化器和使用 on-policy