Query-OPT: 通过多查询指令优化会议摘要中大型语言模型的推理

Feb, 2024

Query-OPT: 通过多查询指令优化会议摘要中大型语言模型的推理

Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization

Md Tahmid Rahman Laskar, Elena Khasanova, Xue-Yong Fu, Cheng Chen, Shashi Bhushan TN

TL;DR该研究探讨了使用大型语言模型（LLMs）进行基于查询的会议摘要生成任务，通过在单个提示中组合相同输入上下文的查询以最小化重复调用，优化推理成本，发现多数 LLMs 对于多查询指令存在响应，但除 GPT-4 外，即使进行了微调，几乎所有 LLMs 都无法以所需的输出格式正常生成响应，因此多查询提示只适用于特定的 LLMs。

Abstract

This work focuses on the task of query-based meeting summarization in which the summary of a context (meeting transcript) is generated in response to a specific query. When using large language models (LLMs) for

query-based meeting summarization large language models llm inference multi-query prompting inference costs

发现论文，激发创造

利用大型语言模型构建实际的现实会议摘要系统：实用视角

本研究通过评估和比较各种闭源和开源大型语言模型，探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明，大多数闭源模型在性能方面更好，但即使在零 - shot 情况下，较小的开源模型如 LLaMA-2（7B 和 13B）仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本，能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡，LLaMA-2-7B 模型在工业应用中更具前景。总之，本文提供了使用大型语言模型进行实际业务会议摘要的实用见解，突显性能和成本之间的权衡。

Oct, 2023

FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型

该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。

May, 2023

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024

QuickLLaMA: 大型语言模型的查询感知推理加速

通过引入针对大型语言模型（LLMs）的查询感知推理（Q-LLM）系统，我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题，并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。

Jun, 2024

多任务推理：大型语言模型能否同时遵循多个指令？

该研究分析了大型语言模型的多任务推理能力，并介绍了 MTI Bench 作为一个综合评估基准，证明多任务推理相对于单任务推理可以显著减少推理时间并提高性能。

Feb, 2024

利用相關的靜態分析產品改進少樣本提示

本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能，发现通过添加语义信息可以显著提高模型性能，特别是在 PHP 语言的 CodeSearchNet 数据集上。

Apr, 2023

微型巨人：在真实世界中，小一些的大型语言模型能在会议摘要中斩获更高的分数吗？

研究论文重点探讨了大型语言模型（LLMs）在实际工业环境中面临的挑战，比较了经过微调的紧凑型 LLMs（如 FLAN-T5、TinyLLaMA、LiteLLaMA）与零样本大型 LLMs（如 LLaMA-2、GPT-3.5、PaLM-2）在会议摘要任务上的性能表现，结果发现 FLAN-T5 是一个比较适宜的成本效益高、实际工业部署的解决方案。

Feb, 2024

利用大型语言模型作为参考学习自动摘要

本文提出了一种新的学习范式，考虑到 LLMS 是常用摘要数据集中的参考标准，用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明，用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型，其性能可以与参考的 LLM 相媲美，通过访问 LLMS 它只需要很小的预算。

May, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct 和 OpenAI Chat-GPT 模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括 MPT-7b-instruct，falcon-7b-instruct 和 OpenAI ChatGPT text-davinci-003 模型，通过不同的超参数对生成的摘要进行评估，并发现 text-davinci-003 模型的表现优于其他模型。该研究还分析了 CNN Daily Mail 和 XSum 两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对 NLP 领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023