在测试时间计算中的最佳扩展比扩大模型参数更有效

Aug, 2024

在测试时间计算中的最佳扩展比扩大模型参数更有效

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar

TL;DR本研究解决了在大型语言模型（LLM）测试时间计算的规模问题，探讨如何利用固定的计算资源显著提高模型在复杂提示上的表现。论文提出了一种“计算最优”的扩展策略，能够根据提示的难度动态分配计算资源，经过验证，此策略比现有基准提高了超过4倍的计算效率，并在特定情况下超越了14倍大模型的性能。

Abstract

Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of Inference-Time Computation in LLMs, with a focus on ans

发现论文，激发创造

压缩后即提示：通过可转移提示提高LLM推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩LLMs通过这种提示学习方法能够匹配或超过原模型的准确性，这为LLMs的推断和扩展提供了新的可能性。

May, 2023

响应长度感知与序列调度：基于LLM增强的LLM推断管道

本文提出了一种高效的大语言模型推理流水线方法，该方法利用大语言模型的潜力来准确感知和预测响应长度，并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理，从而实现了86％的推理吞吐量的提高，同时不影响其效果。该方法是现有工具包（如FlashAttention，Quantization）中的一个宝贵补充。

May, 2023

(动态)提示可能足以修复压缩的LLM模型

大型语言模型，困惑度，压缩，基于提示的恢复，推理时动态提示。

Oct, 2023

面向优化的大型语言模型

评估LLM在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到LLM在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对LLM的优化任务领域进行进一步研究的重要性。

Oct, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

是否需要更多的LLM调用？朝着扩展化合物推理系统的法则迈进

使用复合系统进行大型语言模型调用和聚合以取得最新语言任务的最优结果，本文研究了调用次数对复合推理系统性能的影响，并发现投票推理系统的性能随调用次数的增加呈现非单调变化，这是由于任务中存在易难不同的查询难度所导致，进一步提出了投票推理系统的缩放规律，并验证了该规律可以预测推理系统的性能和最佳调用次数。

Mar, 2024

量化LLM在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024

针对语言模型问题解决的计算最优推理的实证分析

本研究针对大型语言模型（LLMs）推理配置不充分探索的问题，提出了一种计算最优推理的方法。我们评估了多种推理策略的有效性和计算效率，发现利用较小的语言模型和新颖的树搜索算法可以在预算受限情况下实现最佳的性能和计算成本配比。这一发现为在资源有限的环境中提升问题解决准确性提供了新的思路。

Aug, 2024

大语言猴子：通过重复采样扩大推理计算能力

本研究解决了推理计算中仅使用一次尝试的问题，探索了通过增加生成样本数量来改善模型表现的潜力。研究发现，样本数量的增加显著提升了解决问题的覆盖率，尤其在编码和形式证明等自动验证领域表现尤为突出，推动了深度学习模型的效率和成本效益。尤其是，DeepSeek-V2-Coder-Instruct在采样次数从一个增加到250时，解决问题的比例从15.9%跃升至56%。

Jul, 2024

通过多阶段采样对大型语言模型进行主动测试

本研究针对大型语言模型（LLMs）在性能评估中的数据需求问题，提出了一种新颖的主动测试框架AcTracer。该框架通过多阶段池基主动选择策略，从内部和外部信息指导测试数据的采样，有效提高了性能评估的效率和准确性。实验结果显示，AcTracer在各类任务中表现优于现有方法，性能提升达38.83%。

Aug, 2024