- 通过扩散行为对得分正则化策略优化
我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法,利用后者在优化过程中直接规范化行为分布的评分函数,从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案,扩散建模的强大生成能力使我们的方法在 D4RL - 提高熵以提升个性化任务的政策梯度性能
基于策略梯度的强化学习代理为了多样性,探究了正则化对行动多样性的影响,并通过实验结果证明了多样性促进的策略正则化在个性化任务的性能提升方面具有显著优势,同时不损失准确性。
- 超越稳态:随机 Softmax 策略梯度方法的收敛分析
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
- 使用矩阵神经网络的均场控制的演员评价学习算法
我们开发了一种新的策略梯度和演员 - 评论家算法,用于解决在连续时间强化学习设置中的平均场控制问题。我们的方法利用了值函数的梯度表示,采用参数化的随机策略。演员(策略)和评论家(值函数)的学习通过在概率测度的 Wasserstein 空间上 - 平等的长期收益率:将静态公平概念应用于顺序决策
通过引入一种名为 ELBERT-PO 的偏差缓解方法,我们在三个连续决策环境上的实验证明 ELBERT-PO 方法显著减少了偏差并保持了高效用性。
- 回顾式大型语言代理人优化的政策梯度的 Retroformer
通过学习出具有回顾性模型的基于政策梯度的大型语言代理(language agent),我们的方法在多个环境和任务中学习奖励,以优化代理的性能,并取得了比基准方法更好的结果。
- 子模强化学习
在强化学习中,通过使用次模式集函数来捕捉递减回报值,我们提出了 SubRL 的范例,该范例旨在优化非加性的奖励,通过贪婪地最大化边际收益,我们的算法 SubPO 能够处理非加性奖励并且恢复出亚模拟赌博的最优恒定因子逼近,我们还引入了一种自然 - 反馈即所需:基于近似物理模型的真实世界强化学习
本文提出了一种基于策略梯度的策略优化框架,可以通过可能高度简化的一阶模型对实际数据进行监督学习,从而设计出精确的控制策略。
- SARC:软性演员回顾评论家
本文提出了软演员回溯评论家(SARC)算法,通过增加回溯损失项来改进 SAC 的评论家学习,从而提高政策梯度估计和实现更好的策略,在基准环境中展示了 SARC 对 SAC 的持续改进表现。
- 面向上下文的贝叶斯网络演员 - 评论者方法用于协作多智体强化学习
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个 MARL 基准测试中获得 - 连续强化学习的策略优化
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
- DoMo-AC: 双重多步骤离线 Actor-Critic 算法
介绍了一种新方法 doubly multi-step off-policy VI (DoMo-VI) 和其实例 doubly multi-step off-policy actor-critic (DoMo-AC),通过结合 policy - 一种用于混杂 POMDP 的策略梯度方法
该研究提出了一个新的策略梯度方法,并利用脱机数据建立了一个新的识别结果,解决了条件矩限制,提供了有限样本的非渐变界,最后证明了在某些技术条件下提出的算法的全局收敛性,这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。
- 具备函数逼近和理论保证的决策感知演员 - 评论家算法
我们设计了一个决策感知的联合目标来训练演员和评论家,以解决演员的最优目标与评论家的最小化 TD 误差目标不匹配的问题,并提出了一个通用的 Actor-critic 算法来处理任何函数逼近,在一些简单的赌博机示例中,我们证明了提出的评论家目标 - 深度度量张量正则化的策略梯度
本文提出了一种新的策略梯度算法,使用矩阵张量分解以及 Riemann 流形,通过最小化 Riemann 流形中的绝对发散来规范化算法,实现了深度强化学习算法性能的显著提升。
- 存在对称性和状态抽象的策略梯度方法
本研究旨在通过抽象来提高强化学习在高维度和复杂问题上的效率和泛化能力,并在连续控制环境中研究抽象的概念,提出了一系列基于异构度量的策略梯度算法以及具有连续对称性的环境来证明该算法的效果,结果表明该算法利用 MDP 同态性进行表示学习可以提高 - ACL主题模型的强化学习
本文采用增强学习技术,用连续动作空间得到的强化学习策略替换 ProdLDA 中变分自编码器,采用给 ELBO 损失加权,使用上下文嵌入以及监控每个训练步骤的主题多样性和连贯性等方法,以 11 个数据集为实验对象。我们的无监督模型优于所有其他 - 熵正则化强化学习的套娃政策梯度:收敛和全局最优性
本研究介绍并研究了一种名为 Matryoshka Policy Gradient(MPG)的新型策略梯度算法,可在最大熵强化学习环境下学习相互关联的有限任务,证明了其收敛性和全局最优性,适用于神经网络参数化的策略优化,以及在标准测试基准上的 - 使用标记数据的思维链自动提示增强与选择
本文提出了一种使用 Automate-CoT 自动扩展和选择合理链来推动 CoT 的方法,该方法通过构建候选池从标签生成的机器理性链中选择多个理性链的最佳组合,以推进大型语言模型的推理能力,并在算术推理、常识推理、符号推理和非推理任务中取得 - 通过在深度强化学习中从预计算中估计值函数来加速策略梯度
通过先前的计算来估计价值函数,以提高策略梯度强化学习的样本效率,并使用价值函数作为基线来减少梯度计算的方差和提高样本效率。