- 强化学习强化强度控制:基于选择的网络营收管理应用
通过利用强化学习框架在选择网络收入管理作为案例研究中的强度控制,不需要事先对时间进行离散化,从而降低计算难度和离散化误差,并通过综合的数值研究展示了我们方法相对于其他最新技术基准的优势。
- 矩阵低秩信任域策略优化
该研究提出了一种基于低秩矩阵的模型作为 Trust Region Policy Optimization(TRPO)算法参数的有效替代方法,将随机策略的参数整合成一个矩阵并应用矩阵补全技术,从而降低计算和样本复杂度,并保持相似的综合奖励。
- 策略梯度与主动重要性抽样
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
- 利用 Polyak 步长适应增强策略梯度
本文介绍了在强化学习领域中广泛使用且具有收敛保证和稳定性的策略梯度算法,在解决参数敏感性问题的同时,通过实验展示了 Polyak 步长在强化学习中更快的收敛速度和更稳定的策略产生。
- 异步联邦强化学习策略梯度更新:算法设计与收敛分析
为了提高强化学习的效率,我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架,通过使用策略梯度(PG)更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战,并分析了 - 无限时间平均回报马尔可夫决策过程的方差减少政策梯度方法
基于政策梯度的两种方法在无限时间平均奖励马尔可夫决策过程中引入了一般参数化。第一种方法采用隐式梯度传输进行方差降低,确保了预期后悔度为 $\tilde {\mathcal {O}}(T^{3/5})$ 数量级。第二种方法以 Hessian- - 在线神经演员 - 评论家算法的弱收敛分析
使用在线演员 - 评论家算法训练的单层神经网络在隐藏单元数量和训练步骤数量趋于无穷大时,收敛于随机常微分方程 (ODE)。
- 分散式多智能体导航的环境和政策协同优化
通过引入多智能体系统和环境协同演化的观点,本研究提出了一个多智能体导航的去中心化问题,通过协同算法交替优化智能体行为和环境配置,选择最优的智能体动作和障碍物配置,以提高导航性能。通过策略梯度方法,在协同框架中建立了无模型学习机制,并进行了收 - 联合策略梯度方法在存在对手情况下的全局收敛保证
在 Federated Reinforcement Learning 中,我们提出了一种基于策略梯度的方法,能够在存在对抗性代理的情况下,实现全局收敛性保证,并具有较低的样本复杂度。
- 全局收敛性:在平均奖励马尔可夫决策过程中的策略梯度
该研究报告首次提出了有限时间全局收敛分析方法,针对无限时间平均奖励马尔可夫决策过程中的策略梯度方法。具体而言,我们关注的是具有有限状态和动作空间的遍历型表格型马尔可夫决策过程。我们的分析表明,策略梯度迭代以 O (log (T)) 的子线性 - 通过与扰动过程保持一致性来稳定随机微分方程的策略梯度
通过将 SDE 与相关扰动过程保持一致,我们提出了一种通用方法,以有效且高效地训练 SDE,并通过结构基于药物设计的任务对其进行了评估,优化生成的配体分子的结合亲和力,取得了 CrossDocked2020 数据集上最佳的 Vina 分数为 - 线性二次控制中策略梯度的隐式偏见:对未观测初始化状态的外推
本文研究了强化学习中策略梯度的内隐偏差,发现其对于训练过的初始状态的外推程度取决于系统在这些初始状态下的探索程度。通过理论和实验证实了该结论,并推测通过开发针对初始状态的有信息选择方法,可以显著改进现实世界的最优控制问题。
- Transformer 世界模型提供更佳的策略梯度吗?
使用 Actions World Models (AWMs) 解决传统 transformer world models 生成的迂回梯度路径问题,在长期视野任务中产生更好的策略。
- 基于深度策略梯度的垂直符号回归
基于深度策略梯度的垂直符号回归(VSR-DPG)可以通过将代数规则迭代应用,建立起包含多个输入变量的等式,显著超越了基于深度强化学习的方法和以往的 VSR 变种。
- 一种具有均匀 PAC 保证的限制 MDP 的策略梯度原始对偶算法
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的 CMDP 示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和 - 基于结构风险最小化的未知奖励模型的逆强化学习
通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的 Rademacher 复杂度的上界。通过模拟实验验证了该方 - 高效逃离非凸政策优化中的鞍点
我们提出了一种使用 Hessian 矩阵 - 向量积的方差约简二阶方法,其样本复杂度为~O (ε^(-3)),并收敛于近似二阶稳定点 (SOSP)。该方法通过使用 HVP 项在不使用 IS 权重的情况下改善了达到近似 SOSPs 的最佳已知 - 基于截断目标函数的消极策略优化的政策梯度
通过简单的目标调整,我们发现在连续行动空间中,将 Proximal Policy Optimization (PPO) 的重要性采样目标替换为截断等价的基础策略梯度可以持续改善其性能,并且这种悲观的优化促进了增强性探索,从而在单任务、约束和 - 政策优化中的分形景观
深度强化学习中,政策梯度是连续领域的核心,但在实践中往往观察到政策梯度训练在许多原因下可能失败,我们提出了一个框架来理解政策梯度方法的一种固有局限性:对于某些类别的马尔可夫决策过程(MDPs),策略空间中的优化景观可能极其非平滑或者呈分形结 - 具有核求积的策略梯度算法
通过高斯过程建模,我们选择了一个能够有效计算奖励的样本集,并使用 “时序” 核积分方法压缩样本信息后,将样本集传递给策略网络进行梯度更新,以提高强化学习中奖励评估的效率。