Apr, 2025
LLM-SRBench:基于大型语言模型的科学方程发现新基准
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with
Large Language Models
TL;DR该研究针对科学方程发现的评估问题,提出了一个名为LLM-SRBench的新基准,旨在克服现有基准的局限性,减少对常见方程的记忆性依赖。该基准涵盖239个具有挑战性的问题,提供两种主要类别,以测试语言模型的推理能力和数据驱动的发现能力。研究表明,现有先进方法的最佳表现仅为31.5%的符号准确率,凸显了科学方程发现的复杂性。