面向优化的大型语言模型

Oct, 2023

Towards Optimizing with Large Language Models

Pei-Fu Guo, Ying-Hsuan Chen, Yun-Da Tsai, Shou-De Lin

TL;DR评估 LLM 在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到 LLM 在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对 LLM 的优化任务领域进行进一步研究的重要性。

Abstract

In this work, we conduct an assessment of the optimization capabilities of llms across various tasks and →

optimization capabilities llms tasks data sizes performance

发现论文，激发创造

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估 LLMs 的方法和维度，并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

高效大型语言模型：综述

大型语言模型在自然语言理解、语言生成和复杂推理等重要任务中展示出了卓越的能力，并有潜力对我们的社会产生重大影响。然而，这些能力所需的资源相当可观，强调了开发有效的技术来解决其效率挑战的迫切需求。本调研以系统和全面的方式概述了高效大型语言模型的研究成果，从模型中心、数据中心和框架中心的角度，将文献进行了分类整理。我们还创建了一个 GitHub 存储库，在这个存储库中收集了本调研中涉及的论文，并将积极维护并整合新的研究成果。希望本调研能为研究人员和从业者提供有价值的资源，帮助他们系统地了解高效大型语言模型的研究进展，并激励他们为这个重要而激动人心的领域做出贡献。

Dec, 2023

揭示以度量为重点的 LLM 评估：挑战与解决方案

NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对这些大型语言模型的理解和应用。

Apr, 2024

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

基于大型语言模型的进化优化器：精英主义推理

该研究论文探讨了大型语言模型在零样本优化方面的能力，介绍了一种基于语言模型的进化优化方法（LEO），并通过数值示例验证此假设的有效性。同时，论文还提出使用大型语言模型时需要小心处理其想象性和产生幻觉的特点，并给出了获取可靠答案的实用指南以及讨论了方法局限和潜在的研究方向。

Mar, 2024

分析大型语言模型在课堂讨论评估中的应用

借助大型语言模型（LLMs）等新的自然语言处理技术，自动评估课堂讨论质量变得越来越可行。本文研究了两种 LLMs 的评估性能如何与任务制定、上下文长度和少样本示例等三个可能影响性能的因素相互作用。我们还探讨了两种 LLMs 的计算效率和预测一致性。结果表明，前述三个因素确实影响了被测试 LLMs 的性能，并且预测一致性与性能之间存在关系。我们建议采用以 LLMs 为基础的评估方法，在预测性能、计算效率和一致性方面取得良好平衡。

Jun, 2024

度量感知的 LLM 推理

大语言模型 (LLMs) 在一系列自然语言处理任务上取得了出色的结果，但当前的推理策略对于许多任务和评估指标来说并不是最优的。为此，本研究提出了基于度量感知的 LLM 推理方法，通过决策理论在推理过程中针对特定指标进行优化，我们在学术基准和公开模型上取得了改进。

Mar, 2024

大型语言模型的评估存在不一致和偏见

本研究通过使用 SummEval 数据集进行一系列分析，证实了大型语言模型作为评估器在以下方面存在偏见和不一致性：（1）体现对低困惑度文本的偏好；（2）显示具有偏见的评分分布；（3）经历多属性判断时的锚定效应。此外，我们分享了配置大型语言模型评估器以减轻这些限制的方法，通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。

May, 2024

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023