基于逆向苏格拉底综合的优化建模和增强推理的LLMs基准测试
评估LLM在各种任务和数据大小上的优化能力,并引入了三个不同的指标来全面评估任务性能。通过应用这些指标,我们观察到LLM在处理小规模样本时表现出很强的优化能力,但其性能受到数据大小和值等因素的显著影响,强调了对LLM的优化任务领域进行进一步研究的重要性。
Oct, 2023
通过识别推理路径的最佳集合来确定推理路径增强的能力边界,通过不同类型的数据的最佳集合的混合来累积增强模型的不同能力,以较低的建设成本实现SOTA性能,并提供用于鲁棒性测试和教育应用的自动问题生成器。
Feb, 2024
使用LLM(大型语言模型)进行优化的最新研究使用迭代地从LLM中寻找下一步解决方案或直接提示LLM进行优化。然而,这些方法存在固有的局限性,包括低操作效率、对提示设计的高敏感性和缺乏领域特定知识。我们介绍了LLaMoCo,这是一种第一个被设计为在代码级别上调整LLM以解决优化问题的指令调整框架。具体地,我们建立了一个包含明确定义的问题提示和有效优化代码的全面指令集。然后,我们开发了一种新颖的两阶段学习策略,在指令调整阶段之前,通过对比学习为模型的微调过程提供了一个热身过程,以增强其收敛行为。实验证明,通过我们的LLaMoCo进行精细调整的CodeGen(350M)模型在合成和真实问题集上都实现了优于GPT-4 Turbo和其他竞争对手的优化性能。精细调整的模型和使用说明可在此URL中获得。
Mar, 2024
在自然语言处理领域,通过将语言描述转化为数学优化问题的数学表达式是一个具有挑战性的任务,本研究比较了GPT-3.5、GPT-4和Llama-2-7b等重要的大型语言模型在零射和单射设置下的性能,结果表明GPT-4在单射场景中表现出卓越的性能,研究还介绍了一种名为'LM4OPT'的渐进微调框架用于Llama-2-7b,该框架利用了噪声嵌入和特殊数据集,研究的实证调查揭示了GPT-4在处理自然语言的问题描述时超越了以前的研究成果,在NL4Opt数据集上实现了0.63的F1分数,而不依赖任何额外的命名实体信息,这些发现不仅为当前大型语言模型在新领域所能达到的能力提供了基准,也为未来通过自然语言输入解决数学优化问题的领域奠定了基础。
Mar, 2024
通过训练开源的大型语言模型(LLMs)来处理自动化优化建模中的数据隐私问题,提出了定制化合成数据的半自动化过程(OR-Instruct),并在实际应用中实现了显著改进的优化建模能力。
May, 2024
基于梯度的优化器和基于大语言模型的优化器的结合方法在解决复杂的非凸优化问题方面展示了协同作用,并 consistently 提供了竞争性基准提示调整方法上的改进。
May, 2024
该论文通过比较分析两种先进的大型语言模型(GPT-4.0和CodeLlama-70B)与传统优化编译器在代码优化方面的能力和局限性,以及引入了一套挑战性的优化模式基准和用于评估生成代码性能和正确性的自动机制,发现虽然大型语言模型有超越当前优化编译器的潜力,但在大型代码上常常生成不正确的代码,需要自动化验证方法,其中CodeLlama-70B在两种大型语言模型中表现最佳,最大加速能达到2.1倍,而CETUS在优化编译器中表现最佳,最大加速能达到1.9倍。同时,两种提示方法(思考链和指令提示)没有显著差异。
Jun, 2024
使用OptLLM框架,将自然语言查询转化为数学问题,并使用外部求解器进行决策,提供多轮对话支持优化问题的建模和求解。实验证明OptLLM在各种LLM上有效,并且经过精调的模型相对于基于提示的模型具有更高的准确性。
Jul, 2024
本研究针对大型语言模型(LLMs)在提示优化中缺乏有效不确定性评估的问题,提出了一个基准数据集来评估不确定性指标。通过对GPT-3.5-Turbo和Meta-Llama-3.1-8B-Instruct模型的分析,发现当前指标更能反映答案不确定性,而非正确性不确定性,从而提出应改进不确定性指标以优化提示的方向。
Sep, 2024
本研究针对大型语言模型在解决数学问题时的性能不足,提出了一种新颖的方法BEATS,该方法通过设计新的提示引导模型迭代重写并基于前一步生成答案,同时引入反向验证技术检查答案的正确性。此外,采用剪枝树搜索优化搜索时间,显著提升了Qwen2-7b-Instruct在MATH基准测试中的分数。该方法为改善LLMs数学能力提供了有效的解决方案。
Sep, 2024