汤普森采样高效学习控制扩散过程
引入 Thompson 采样算法应对 LQ 控制问题的未知系统参数,该算法被称为具有动态阶段的 Thompson 采样(TSDE),其中包括两种停止准则来确定动态阶段的长度并呈现出具有 O (sqrt (T)) 的期望后悔值的性质,加入重启计划也展示了对于模型参数的时间变化具有稳健性。
Sep, 2017
我们通过建立一个马尔可夫决策过程模型,研究一种名为汤普森采样的采样算法的渐近行为。我们展示了标准(期望)遗憾可能呈超线性增长,并且不能很好地捕捉到在具有非平凡状态演进的现实情况下的学习概念。通过分解标准(期望)遗憾,我们提出了一种新的指标,称为期望剩余遗憾,它忽略了过去动作的不可变后果,而是测量了当前时期后的最优奖励的遗憾。我们表明,汤普森采样算法的期望剩余遗憾上界由一个指数级快速收敛于 0 的项给定。我们给出了汤普森采样的后验采样误差收敛于 0 的条件,并且引入了期望剩余遗憾的概率版本并给出了其收敛于 0 的条件。因此,我们提供了一个适用于采样算法的学习概念,在比以前考虑的更广泛的情况下将非常有用。
May, 2024
本研究提出了一种基于 Thompson 取样的强化学习算法,针对参数化的 Markov 决策过程,通过贝叶斯方法进行训练,在一般参数空间的先验分布中可以获得频率挽回上限。结果显示,选择次优动作的时间段的数量随时间对数成比例增长,这取决于参数空间的 Kullback-Leibler 几何信息复杂度。
Jun, 2014
该论文介绍了 Thompson 采样算法在处理在线决策问题,尤其是在平衡当前性能和收集信息提高未来性能之间的探索与利用上的应用。该算法适用于各种问题并具有高效的计算能力,具体例子包括伯努利老虎机问题,最短路径问题,推荐系统,主动学习等。此外,本文还讨论了 Thompson 采样算法何时有效、何时无效以及与其他算法的关系。
Jul, 2017
该论文讨论了 Thompson 采样如何是贝叶斯策略不确定性建模的自然后果、如何用于多个自适应智能体之间的交互研究和如何应用于推断环境中的因果关系等,在自适应顺序决策和因果推断问题中可能不仅是有用的启发式方法,而且也是一个原则性的方法。
Mar, 2013
本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE),尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题,实现了很好的性能并达到了理论界限。
Sep, 2017
本文提出使用去噪扩散模型来学习在线决策问题的先验知识,并结合 Thompson 抽样和先前学习到的先验知识来处理新任务,实现了跨同一类 Bandit 任务表现良好的元学习策略。使用后验抽样算法来平衡先验和与来自环境的噪音观测。通过广泛的实验验证了所提出方法的潜力。
Jan, 2023
本文提供一种信息论分析 Thompson 采样的方式,适用于许多在线优化问题,其中决策者必须从部分反馈中学习,分析继承信息论的简单性和优雅性,并导致与最优行动分布熵成比例的后悔界限,这加强了现有的成果并揭示了信息如何提高性能。
Mar, 2014
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
我们提出了一种新的算法,用于优化由参数化的随机扩散隐式定义的分布,通过在参数上进行优化,我们可以修改抽样过程的结果分布。我们引入了一个用于这些过程的一阶优化的通用框架,该框架在单个循环中执行优化和抽样步骤。这种方法受到了双层优化和自动隐式微分的最新进展的启发,利用了抽样作为概率分布空间上优化的观点。我们对我们的方法的性能提供了理论保证,并在真实场景中展示了其有效性的实验证据。
Feb, 2024