基于逆向苏格拉底综合的优化建模和增强推理的LLMs基准测试

Jul, 2024

基于逆向苏格拉底综合的优化建模和增强推理的LLMs基准测试

Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis

Zhicheng Yang, Yinya Huang, Wei Shi, Liang Feng, Linqi Song...

TL;DR提出E-OPT和ReSocratic两种基准和数据合成方法，通过这些方法进行了大规模语言模型的优化问题求解能力评估和优化算法改进研究。

Abstract

large language models (LLMs) have exhibited their problem-solving ability in mathematical reasoning. Solving realistic optimization (OPT) problems in industrial application scenarios requires advanced and applied math ability. However, current OPT benchmarks that merely solve linear pr

发现论文，激发创造

面向优化的大型语言模型

评估LLM在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到LLM在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对LLM的优化任务领域进行进一步研究的重要性。

Oct, 2023

LLMs数学推理中的数据能力边界的实证研究

通过识别推理路径的最佳集合来确定推理路径增强的能力边界，通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力，以较低的建设成本实现SOTA性能，并提供用于鲁棒性测试和教育应用的自动问题生成器。

Feb, 2024

LLaMoCo：大型语言模型的指令调优用于代码生成

使用LLM（大型语言模型）进行优化的最新研究使用迭代地从LLM中寻找下一步解决方案或直接提示LLM进行优化。然而，这些方法存在固有的局限性，包括低操作效率、对提示设计的高敏感性和缺乏领域特定知识。我们介绍了LLaMoCo，这是一种第一个被设计为在代码级别上调整LLM以解决优化问题的指令调整框架。具体地，我们建立了一个包含明确定义的问题提示和有效优化代码的全面指令集。然后，我们开发了一种新颖的两阶段学习策略，在指令调整阶段之前，通过对比学习为模型的微调过程提供了一个热身过程，以增强其收敛行为。实验证明，通过我们的LLaMoCo进行精细调整的CodeGen（350M）模型在合成和真实问题集上都实现了优于GPT-4 Turbo和其他竞争对手的优化性能。精细调整的模型和使用说明可在此URL中获得。

Mar, 2024

LM4OPT: 大型语言模型在数学优化问题制定中的潜力揭示

在自然语言处理领域，通过将语言描述转化为数学优化问题的数学表达式是一个具有挑战性的任务，本研究比较了GPT-3.5、GPT-4和Llama-2-7b等重要的大型语言模型在零射和单射设置下的性能，结果表明GPT-4在单射场景中表现出卓越的性能，研究还介绍了一种名为'LM4OPT'的渐进微调框架用于Llama-2-7b，该框架利用了噪声嵌入和特殊数据集，研究的实证调查揭示了GPT-4在处理自然语言的问题描述时超越了以前的研究成果，在NL4Opt数据集上实现了0.63的F1分数，而不依赖任何额外的命名实体信息，这些发现不仅为当前大型语言模型在新领域所能达到的能力提供了基准，也为未来通过自然语言输入解决数学优化问题的领域奠定了基础。

Mar, 2024

ORLM：训练大型语言模型用于优化建模

通过训练开源的大型语言模型（LLMs）来处理自动化优化建模中的数据隐私问题，提出了定制化合成数据的半自动化过程（OR-Instruct），并在实际应用中实现了显著改进的优化建模能力。

May, 2024

两个优化器胜过一个：LLM催化剂用于增强基于梯度的优化

基于梯度的优化器和基于大语言模型的优化器的结合方法在解决复杂的非凸优化问题方面展示了协同作用，并 consistently 提供了竞争性基准提示调整方法上的改进。

May, 2024

AI对您的代码进行优化吗？对比当前大型语言模型与经典优化编译器的研究

该论文通过比较分析两种先进的大型语言模型（GPT-4.0和CodeLlama-70B）与传统优化编译器在代码优化方面的能力和局限性，以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制，发现虽然大型语言模型有超越当前优化编译器的潜力，但在大型代码上常常生成不正确的代码，需要自动化验证方法，其中CodeLlama-70B在两种大型语言模型中表现最佳，最大加速能达到2.1倍，而CETUS在优化编译器中表现最佳，最大加速能达到1.9倍。同时，两种提示方法（思考链和指令提示）没有显著差异。

Jun, 2024

用大型语言模型解决一般的自然语言描述优化问题

使用OptLLM框架，将自然语言查询转化为数学问题，并使用外部求解器进行决策，提供多轮对话支持优化问题的建模和求解。实验证明OptLLM在各种LLM上有效，并且经过精调的模型相对于基于提示的模型具有更高的准确性。

Jul, 2024

大型语言模型不确定性基准测试用于提示优化

本研究针对大型语言模型（LLMs）在提示优化中缺乏有效不确定性评估的问题，提出了一个基准数据集来评估不确定性指标。通过对GPT-3.5-Turbo和Meta-Llama-3.1-8B-Instruct模型的分析，发现当前指标更能反映答案不确定性，而非正确性不确定性，从而提出应改进不确定性指标以优化提示的方向。

Sep, 2024

BEATS：通过反向验证和自适应歧义消解的高效树搜索优化大型语言模型的数学能力

本研究针对大型语言模型在解决数学问题时的性能不足，提出了一种新颖的方法BEATS，该方法通过设计新的提示引导模型迭代重写并基于前一步生成答案，同时引入反向验证技术检查答案的正确性。此外，采用剪枝树搜索优化搜索时间，显著提升了Qwen2-7b-Instruct在MATH基准测试中的分数。该方法为改善LLMs数学能力提供了有效的解决方案。

Sep, 2024