量化数学表达式之间的行为距离

Aug, 2024

Quantifying Behavioural Distance Between Mathematical Expressions

Sebastian Mežnar, Sašo Džeroski, Ljupčo Todorovski

TL;DR本文针对现有符号回归方法仅基于语法和结构相似性组织候选数学表达式的局限性，提出了一种新的行为距离度量方法BED，该方法考虑了数学对称性带来的等价关系。实验结果表明，该方法提高了符号回归中错误景观的平滑度，从而提升了计算效率。

Abstract

Existing Symbolic Regression methods organize the space of candidate Mathematical Expressions primarily based on their syntactic, structural similarity. However, this approach overlooks crucial equivalences betwe

发现论文，激发创造

深度符号回归：通过寻求风险策略梯度从数据中恢复数学表达式

提出了利用深度学习解决符号回归的框架，该框架使用循环神经网络生成数学表达式分布，并使用新颖的风险寻求策略梯度来训练网络生成更好的拟合表达式。该算法在一系列基准问题中表现优于几种基准方法，包括符号回归的黄金标准Eureqa。

Dec, 2019

符号回归搜索空间的聚类分析

本论文通过使用一定限制语法的编程方法，对符号回归模型空间的分布及模型之间的相似度进行了分析，研究表明凭借表型相似度，可以得出较为明确的模型分类，为符号回归模型的生成提供重要的信息。

Sep, 2021

重新思考符号回归数据集和基准，以促进科学发现

本研究重新审视了Symbolic Regression的数据集和评估标准，旨在探讨其在科学探索中的潜力。我们基于现有物理学讲义上的一组公式重建了120个数据集，为每个数据集设计了合理的取样范围，并提出使用标准化编辑距离作为评价指标。通过对五种最先进的SR方法和一种基于Transformer结构的简单基准线进行实验，结果表明我们提供了更现实的性能评估，并为开展基于机器学习的科学发现打开了新的思路。

Jun, 2022

用因果框架量化语言模型数学推理的鲁棒性

通过行为测试，研究语言模型在数学问题求解中的鲁棒性和灵敏度，并通过因果图描述直接干预输入空间对模型行为的影响。在双变量数学问题测试中，LLM、GPT-3-Instruct（175B）相对于其他GPT变体，在鲁棒性和灵敏度方面实现了显著提高。

Oct, 2022

符号回归数学表达式的高效生成器

本文提出了一种基于新颖的变分自编码器生成分层结构的符号回归方法，将简单的原子单元与共享权重相结合，递归地编码和解码分层中的个体节点，通过随机化搜寻分层结构的空间，能够在符号回归任务中准确且高效地构建等式。

Feb, 2023

基于神经引导动态符号网络的数学表达式探索

我们提出了DySymNet，这是一个新颖的神经引导的动态符号网络，用于符号回归。通过对各种结构进行优化，我们能够更好地识别与数据更匹配的表达式，在低维和高维问题中都能取得卓越的性能。

Sep, 2023

潜空间中的多操作数学推导

通过使用符号引擎，本研究探讨了在潜空间中逼近多个数学运算的可能性，引入了不同的多运算表示范式，将数学运算建模为明确的几何变换，实现了1.7M个推导步骤的大规模数据集，分析了每个范式在与先进的神经编码器实例化时的特性，发现多运算范式对于区分不同的运算符是至关重要的，而对于单一运算的结论可以在原始表达式编码器中实现。此外，我们还展示了架构选择如何显著影响空间的训练动态、结构组织和泛化能力，导致不同范式和编码器类别之间存在显著变化。

Nov, 2023

垂直符号回归

通过垂直发现和学习符号回归，实现了自动化科学发现的目标，从而加速了学习含有多个自变量的符号表达式。

Dec, 2023

通过GPT引导的蒙特卡罗树搜索从数据中发现数学公式

SR-GPT是一种新的符号回归算法，通过将MCTS与GPT相结合，显著提高了MCTS的搜索效率，并利用MCTS结果进一步完善GPT，从而在正确恢复符号表达式方面优于现有的最先进算法。

Jan, 2024

使用并行化树搜索发现符号表达式

通过并行化树搜索模型（PTS）高效提取通用数学表达式从有限数据中，通过一系列广泛的实验，我们证明了PTS在方程发现方面较基准模型具有更高的准确性和效率，大大超过80个合成和实验数据集上的现有模型，PTS代表了在准确且高效的数据驱动符号化模型发现方面的重大进展并标志着可扩展的符号化学习的重要转变。

Jul, 2024