序贯实验设计中的交叉熵估计与强化学习

May, 2023

序贯实验设计中的交叉熵估计与强化学习

Cross-Entropy Estimators for Sequential Experiment Design with Reinforcement Learning

Tom Blau, Edwin Bonilla, Iadine Chades, Amir Dezfouli

TL;DR该研究提出了一种基于交叉熵的替代下界估计方法，其使用灵活的提议分布来近似模型参数的真实后验，不需要对比样本，并且可以在多种任务中实现更加准确的估计和学习。

Abstract

reinforcement learning can effectively learn amortised design policies for designing sequences of experiments. However, current methods rely on contrastive estimators of →

reinforcement learning amortised design policies expected information gain cross-entropy model parameters

发现论文，激发创造

改进交叉熵估计器的无似然推断

通过利用神经网络作为概率无关推断的代理模型，使用隐式生成模型或模拟器提供的联合概率比和联合得分来增强这些代理模型的训练数据，提出了一种新的交叉熵估计器，与之前利用增强训练数据的损失函数相比，该估计器提供了更好的样本效率。

Aug, 2018

基于无偏 MLMC 随机梯度的贝叶斯实验设计优化

该论文提出了一种高效的随机优化算法，通过引入随机多层次蒙特卡洛（MLMC）方法，使用无偏的蒙特卡罗估计器求解期望信息增益的梯度，该算法具有较高的性能，可以用于搜索最优的贝叶斯实验设计，适用于简单测试问题和现实药代动力学问题。

May, 2020

隐式模型的高效贝叶斯实验设计

本文提出了一个新的实验设计框架，用于解决隐式模型中的优化资源分配问题，采用了先前不可行的参数和数据之间的互信息作为效用函数，并使用基于贝叶斯优化的方法解决最优设计问题。

Oct, 2018

强化学习中的经验设计

本文旨在提出在强化学习中进行良好实验的方法，并强调常见错误和潜在统计结果，覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等，旨在通过充分利用计算资源来进行良好的实证研究。

Apr, 2023

具有鲁棒性交叉熵方法的约束模型强化学习

本文研究对于稀疏指示信号的约束 / 安全强化学习问题。我们提出了一种基于模型的方法，使强化学习代理能够在未知系统动力学和环境约束下有效地探索环境。我们使用神经网络集成模型来估计预测不确定性，并以模型预测控制作为基本控制框架。我们提出了鲁棒的交叉熵方法来优化控制序列，考虑模型不确定性和约束。我们在安全体育场环境中评估了我们的方法。结果表明，我们的方法比现有基线模型学习完成任务的约束违规数量更少。此外，与有约束模型无关的强化学习方法相比，我们能够实现几个数量级更好的样本效率。代码可在 https://github.com/liuzuxin/safe-mbrl 获取。

Oct, 2020

实时规划的高样本利用率交叉熵方法

本文提出了改进的 CEM 算法，包括时间相关动作和内存等创新性的增加，可以在高维控制问题中使用，减少了采样次数并提高了 1.2-10 倍的性能表现。

Aug, 2020

通过互信息神经估计的贝叶斯隐式模型实验设计

对于内隐随机模型，在数据生成分布复杂度很高但采样是可能的情况下，我们应当采用贝叶斯实验设计来最大限度地提高数据与参数变量之间的互信息，并利用基于神经网络的互信息估计来处理计算成本较高的难题，并在模拟研究中展示其可行性。

Feb, 2020

集合交叉熵：概率分布的基于似然的置换不变性损失函数

本文提出了一种置换不变损失函数，用于神经网络对元素集合进行重建，而不考虑其向量表示中的顺序。提出的方法 Set 交叉熵具有自然的信息理论解释，并与集合的度量相关。我们将其应用于两个对象重建任务和一个规则学习任务。

Dec, 2018

通过无放回抽样估计离散随机变量的梯度

本文提出了一种基于无重复抽样的离散随机变量期望无偏估计方法，将其与 REINFORCE 算法相结合，得到了具有内置控制变量的策略梯度估计器，并应用于多种任务得到了良好的效果。

Feb, 2020

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018