策略梯度搜索中的探索改进：符号优化应用

ICLRJul, 2021

策略梯度搜索中的探索改进：符号优化应用

Improving exploration in policy gradient search: Application to symbolic optimization

Mikel Landajuela, Brenden K. Petersen, Soo K. Kim, Claudio P. Santiago, Ruben Glatt...

TL;DR本文介绍了两种探索方法 —— 熵正则化和分布初始化，用于解决基于神经网络的自动数学计算任务中的早期决策和初始化偏差问题，从而提高机器学习性能、样本效率和解决方案复杂性。

Abstract

Many machine learning strategies designed to automate mathematical tasks leverage neural networks to search large combinatorial spaces of mathematical symbols. In contrast to traditional evolutionary approaches,

machine learning neural networks symbolic regression exploration methods entropy regularization

发现论文，激发创造

深度符号回归：通过寻求风险策略梯度从数据中恢复数学表达式

提出了利用深度学习解决符号回归的框架，该框架使用循环神经网络生成数学表达式分布，并使用新颖的风险寻求策略梯度来训练网络生成更好的拟合表达式。该算法在一系列基准问题中表现优于几种基准方法，包括符号回归的黄金标准 Eureqa。

Dec, 2019

政策梯度背后的探索神话

我们提出了一种新的分析方法，并区分了探索技术的两个不同影响。首先，它们使得能够平滑学习目标并消除局部最优解，同时保留全局最优解。其次，它们修改了梯度估计，增加了随机参数更新最终提供最优策略的概率。在这些影响的基础上，我们讨论并通过熵奖励进行了实证研究，突出了其局限性，并为该策略的设计和分析开辟了未来的研究方向。

Jan, 2024

高效的符号策略学习与可微分符号表达

通过提出一种名为 Efficient Symbolic Policy Learning（ESPL）的高效梯度学习方法，在深度强化学习中实现从头开始学习符号策略，并扩展至元强化学习，生成出性能更高、效率更高且具有潜力解释的符号策略。

Nov, 2023

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016

具备复杂性意识的深度符号回归与稳健风险寻求策略梯度

本文提出了一种新颖的深度符号回归方法，以增强数据驱动的数学表达式发现的鲁棒性和解释性。通过使用 transformer 与广度优先搜索相结合来改善学习性能，并使用贝叶斯信息准则（BIC）作为奖励函数来明确考虑表达式复杂性并优化解释性和数据适应性之间的权衡。通过一系列基准测试和系统性实验，我们展示了我们方法的优势。

Jun, 2024

优化解决方案采样器的组合问题：策略梯度方法的景观

深度神经网络和强化学习方法在解决复杂的组合问题方面取得了显著的实证成果，本文引入了一种新的理论框架来分析这些方法的有效性，回答了存在生成模型能够生成近似最优解、拥有易处理的参数数量以及优化结果无次优静态点等问题，并介绍了一种新的正则化过程，实验证明其有助于解决梯度消失和避免不良静态点的问题。

Oct, 2023

基于强化学习的神经优化器搜索

用循环神经网络控制器生成包括多种基本函数的特定领域语言的更新方程，通过强化学习来优化模型的性能，在 CIFAR-10 上发现了多种优化器，新增的 PowerSign 和 AddSign 优化器能够提高不同任务和架构的训练。

Sep, 2017

识别政策梯度子空间

通过评估两种常用的深度策略梯度方法在各种模拟基准任务上的表现，我们的研究结果表明，尽管强化学习所固有的数据分布不断变化，梯度子空间仍然存在，这为未来更高效的强化学习提供了有益的方向，例如通过改善参数空间探索或实现二阶优化。

Jan, 2024

用遗传规划发现动态符号策略

通过遗传编程优化代数表达式，我们展示了白盒符号控制系统可用于学习和优化转换观察到的控制信号的函数，从而提供了比黑盒模型更具解释性和透明度的方案。

Jun, 2024

符号回归在可解释科学探究中的应用：评述

本文综述了符号回归方法的优缺点，探讨了其在机器学习、深度学习等应用领域中以数据驱动的模型发现方法所取得的显著进展。

Nov, 2022