序贯实验设计中的交叉熵估计与强化学习
通过利用神经网络作为概率无关推断的代理模型,使用隐式生成模型或模拟器提供的联合概率比和联合得分来增强这些代理模型的训练数据,提出了一种新的交叉熵估计器,与之前利用增强训练数据的损失函数相比,该估计器提供了更好的样本效率。
Aug, 2018
该论文提出了一种高效的随机优化算法,通过引入随机多层次蒙特卡洛(MLMC)方法,使用无偏的蒙特卡罗估计器求解期望信息增益的梯度,该算法具有较高的性能,可以用于搜索最优的贝叶斯实验设计,适用于简单测试问题和现实药代动力学问题。
May, 2020
本文提出了一个新的实验设计框架,用于解决隐式模型中的优化资源分配问题,采用了先前不可行的参数和数据之间的互信息作为效用函数,并使用基于贝叶斯优化的方法解决最优设计问题。
Oct, 2018
本文旨在提出在强化学习中进行良好实验的方法,并强调常见错误和潜在统计结果,覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等,旨在通过充分利用计算资源来进行良好的实证研究。
Apr, 2023
本文研究对于稀疏指示信号的约束 / 安全强化学习问题。我们提出了一种基于模型的方法,使强化学习代理能够在未知系统动力学和环境约束下有效地探索环境。我们使用神经网络集成模型来估计预测不确定性,并以模型预测控制作为基本控制框架。我们提出了鲁棒的交叉熵方法来优化控制序列,考虑模型不确定性和约束。我们在安全体育场环境中评估了我们的方法。结果表明,我们的方法比现有基线模型学习完成任务的约束违规数量更少。此外,与有约束模型无关的强化学习方法相比,我们能够实现几个数量级更好的样本效率。代码可在 https://github.com/liuzuxin/safe-mbrl 获取。
Oct, 2020
对于内隐随机模型,在数据生成分布复杂度很高但采样是可能的情况下,我们应当采用贝叶斯实验设计来最大限度地提高数据与参数变量之间的互信息,并利用基于神经网络的互信息估计来处理计算成本较高的难题,并在模拟研究中展示其可行性。
Feb, 2020
本文提出了一种置换不变损失函数,用于神经网络对元素集合进行重建,而不考虑其向量表示中的顺序。 提出的方法 Set 交叉熵具有自然的信息理论解释,并与集合的度量相关。我们将其应用于两个对象重建任务和一个规则学习任务。
Dec, 2018
本文提出了一种基于无重复抽样的离散随机变量期望无偏估计方法,将其与 REINFORCE 算法相结合,得到了具有内置控制变量的策略梯度估计器,并应用于多种任务得到了良好的效果。
Feb, 2020
本文提出了一种基于自我模仿学习的深度强化学习算法,旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率,并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性,并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。
May, 2018