纤维采样问题的演员 - 评论算法 | BriefGPT

May, 2024

纤维采样问题的演员 - 评论算法

Actor-critic algorithms for fiber sampling problems

Ivan Gvozdanović, Sonja Petrović

TL;DR我们提出了一个用于代数统计和离散优化方面复杂问题的演员 - 评论算法，在高维多面体定义的有限非负整数点格子的一个子集中生成样本。我们将问题转化为马尔可夫决策过程，并设计了一种演员 - 评论增强学习算法，以学习一组可以用于采样的良好移动。我们证明了演员 - 评论算法收敛到一个近似最佳的采样策略。为了解决这些采样问题中通常出现的复杂性问题，并允许增强学习在大规模情况下发挥作用，我们的解决策略包括三个步骤：分解样本的起始点，在每个诱导的子问题上使用增强学习，并进行重构以获得原始多面体中的样本。在这个设置中，收敛性证明适用于分解中的每个子问题。我们在两个不同的情况下测试了这种方法。在统计应用中，高维多面体作为参考分布的支持集出现在广泛的分类数据统计模型的模型 / 数据拟合测试中。我们演示了如何使用增强学习解决模型拟合测试问题，对于问题规模和稀疏结构导致传统的 MCMC 采样器收敛太慢的数据集。为了测试算法的鲁棒性并探索其概括能力，我们将其应用于不同大小和稀疏水平的合成数据。

Abstract

We propose an actor-critic algorithm for a family of complex problems arising in algebraic statistics and discrete optimization. The core

actor-critic algorithm algebraic statistics discrete optimization markov decision process sampling problems

发现论文，激发创造

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

自适应四边形网格生成的强化学习：软性演员 - 评论家算法

本文提出，实现并评估了一种基于强化学习的计算框架用于自动网格生成，通过将网格生成问题转化为马尔可夫决策过程，使用 “软玄学家” 算法对自动生成的网格进行学习，使我们能够建立一个完全自动化的网格生成系统，填补现有网格生成工具的空白。

Mar, 2022

证明收敛性的有约束深度演员 - 评论家单循环算法学习强化学习

本文提出了一种针对现实问题中非凸随机约束并高成本与环境交互的一次迭代式深度演员 - 评论家算法框架，并使用约束随机连续逼近方法来处理非凸随机目标和约束。

Jun, 2023

线性算术约束上的近似整数解统计

我们提出了一种新的随机行走抽样方法来近似计算多面体内的晶格点计数，并且通过实验结果表明，我们的算法在解决高维多面体时明显优于现有的计数方法。

Dec, 2023

AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制

利用演员 - 评论家强化学习技术提高模型预测控制性能，通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。

Jun, 2024

使用线性函数逼近实现高效的本地规划

研究使用线性函数逼近和模拟器的查询和计算高效的计划算法，在这种情况下，我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法，同时证明了我们的算法在特征，有效规划控制范围和目标次优性的维度中具有多项查询和计算成本，而这些成本与状态空间的大小无关。

Aug, 2021

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018

相对熵正则化策略迭代

我们提出了一种基于离线策略的 Actor-Critic 算法，结合了随机搜索梯度 - free 优化和学习的动作价值函数，通过评估参数化动作 - 价值函数、估计局部非参数化策略和拟合参数化策略的三个步骤，在 31 个连续控制任务中进行对比与实验，并取得了良好的效果。

Dec, 2018

马尔可夫决策过程中最佳策略识别的自适应采样

本文研究在马尔可夫决策过程中，通过生成模型来识别最优策略，提出了 KLB-TS 算法，并提供了其样本复杂度的渐近保证。

Sep, 2020

软最大熵深度强化学习中的 Stochastic Actor-Critic 算法

本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法，该算法通过离策略更新和稳定的随机演员 - 评论家公式结合，实现了在一系列连续控制基准任务上的最先进表现。

Jan, 2018