贝叶斯神经网络中的随机动力系统学习与策略搜索

May, 2016

贝叶斯神经网络中的随机动力系统学习与策略搜索

Learning and Policy Search in Stochastic Dynamical Systems with Bayesian Neural Networks

Stefan Depeweg, José Miguel Hernández-Lobato, Finale Doshi-Velez, Steffen Udluft

TL;DR本研究提出了一种基于模型的强化学习算法，它将贝叶斯神经网络与随机展开和随机优化策略相结合，并通过最小化 α- 散度来训练 BNNs 以捕获转换动态中复杂的统计模式，解决了传统方法容易失误的多模态和异方差问题，并在控制燃气轮机的真实场景中获得了有希望的结果。

Abstract

We present an algorithm for model-based reinforcement learning that combines bayesian neural networks (BNNs) with random roll-outs and stochastic optimization for policy learning. The BNNs are trained by minimizi

model-based reinforcement learning bayesian neural networks stochastic optimization multi-modality gas turbine control

发现论文，激发创造

随机控制系统中的稳定策略学习

本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略，结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。

May, 2022

贝叶斯神经网络的概率式到达 - 避免

本研究主要探讨基于模型的强化学习中的安全性和鲁棒性问题，包括使用贝叶斯神经网络描述动态模型来计算迭代预测的到达 - 避免概率，以及使用控制综合算法综合出最佳控制策略以满足安全性约束和学习到的动态模型。

Oct, 2023

基于贝叶斯神经网络的随机优化问题学习解决方案

使用贝叶斯神经网络和随机规划技术的预测不确定性建模，以降低决策风险和提高决策质量。

Jun, 2024

生物神经网络的学习基于随机梯度下降吗？一种使用随机过程的分析

通过研究生物神经网络中监督学习的随机模型，我们发现随机梯度下降法可能在优化生物神经网络中扮演角色。

Sep, 2023

用于语言建模的可伸缩循环神经网络贝叶斯学习

本文提出了基于贝叶斯学习的算法，通过引入随机梯度 Markov Chain Monte Carlo 的思想对 RNN 模型进行权重不确定性学习，从而提高模型在各个任务上的表现。

Nov, 2016

基于学习的具有神经网络策略的随机动力系统的验证

我们考虑在随机动力系统中验证神经网络策略以达到避碰控制任务，并使用一个证明该策略满足任务的神经网络作为证书的验证过程。我们对验证神经网络是 RASM 的算法方法进行了显著加速，并通过通过加权范数计算神经网络的 Lipschitz 常数的新颖且快速的方法以及集成了高效的局部细化方案来实现比现有方法更粗的离散化。我们对多个基准测试和使用不同强化学习算法训练的神经网络策略进行了实证评估，结果表明我们的方法在验证神经网络策略方面是有效的。

Jun, 2024

基于贝叶斯视角的随机优化端到端学习

为了在随机优化中实现端对端学习，我们发展了一种基于贝叶斯解释的算法，并提出了一种训练决策映射的全新算法，用于输出经验风险最小化和分布式鲁棒优化问题的解决方案。通过对合成售货员问题和基于真实数据的经济调度问题进行数值实验，阐明了替代培训方案之间的关键差异以及决策映射的神经网络架构对测试性能的影响。

Jun, 2023

随机领域贝叶斯策略搜索

该研究将随机领域的政策搜索视为贝叶斯推断问题，并提供了一种将此类问题编码为嵌套概率程序的方案。研究表明，即使使用更简单、更普遍的推断算法，仍然可以学习到质量相似的策略。

Oct, 2020

贝叶斯探索网络

贝叶斯强化学习在面对不确定性的顺序决策问题中提供了一种原则性和优雅的方法，但其主要挑战是在高维状态转移分布中建模不确定性的计算复杂性。本文提出了一种新颖的无模型方法来解决这个挑战，通过在一维贝尔曼算子中建模不确定性，引入贝叶斯探索网络 (BEN)，通过正态化流来建模贝尔曼算子中的不确定性，并通过变分推断来建模知识性不确定性，实验结果表明，BEN 可以在现有的无模型方法失败的任务中学习到真正的贝叶斯最优策略。

Aug, 2023

通用策略网络的快速基于模型的策略搜索

通过在仿真环境中使用基于高斯过程的先验知识，结合基于贝叶斯优化的策略搜索方法，提高在连续和离散控制环境中智能体行为的适应性，实验表明相比其他竞争基准，该方法的效果更好。

Feb, 2022