利用大型语言模型进行改写和聚合以最小化意图分类错误

SIGIRJun, 2024

利用大型语言模型进行改写和聚合以最小化意图分类错误

Paraphrase and Aggregate with Large Language Models for Minimizing Intent Classification Errors

Vikas Yadav, Zheng Tang, Vijay Srinivasan

TL;DR大型语言模型在自然语言生成方面取得了显著的成功，但在决策任务如分类方面的适用性却鲜有关注。本文提出了 PAG-LLM 方法，通过生成原始查询和多个并行查询的多次释义、多类别分类以及根据置信度得分对所有分类标签进行聚合，以解决大型多类别分类任务中的错误和词表外标签生成问题。我们在 CLINC 和 Banking 这两个大型多类别分类数据集上评估了 PAG-LLM，在错判率分别降低了 22.7% 和 15.1%。研究结果表明，PAG-LLM 在 LLM 不确定的复杂案例上表现出特别有效的作用，降低了重要的误分类和虚构标签生成错误。

Abstract

large language models (LLM) have achieved remarkable success in natural language generation but lesser focus has been given to their applicability in decision making tasks such as classification. We show that LLM

large language models classification llma pag-llm error reduction

发现论文，激发创造

1+1>2：大型语言模型能否用作跨语言知识聚合器？

通过从不同语言中汇集知识，该研究介绍了一种增强大型语言模型在多语言环境下性能的方法。实验证明，该方法显著提升了性能，特别是在减少语言性能差异方面。

Jun, 2024

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

不是所有指标都有罪：利用 LLM 改进 NLG 评估的修辞转换技术

本文提出了 Para-Ref，一种通过利用大型语言模型进行重新创作来增强现有自然语言生成评估基准的新方法，并在机器翻译、文本摘要和图像标题等任务中的实验结果表明，该方法能够通过多个高质量的参考文本使人工评估结果与 16 种自动评估指标之间的相关度提高了 7.82%。

May, 2023

提高基于大规模语言模型的有效适应性以改善语境理解

这篇论文关注通过一种名为 AGREE 的新框架，综合地改善大型语言模型在真实世界中的应用，以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息，设计了一种迭代的测试时间调整能力来有效实现该框架，并通过提供引用来调整大型语言模型对检索文档中主张的立足。结果表明，基于调整的 AGREE 框架相较于基于提示的方法，生成了更好的基于立足的回答和更准确的引用。

Nov, 2023

PlagBench: 大型语言模型在抄袭生成和检测中的二元性探索

最近的文献强调了大型语言模型（LLMs）与学术诚信相关的潜在风险，它们可以记忆部分训练实例并在生成的文本中无妥善归属地复制。此外，鉴于它们在生成高质量文本方面的能力，剽窃者可以利用 LLMs 生成与原作无法区分的逼真释义或摘要。为了应对 LLMs 可能在剽窃行为中的恶意使用，我们介绍了 PlagBench，这是一个综合的数据集，由三个针对不同写作领域的三个指导调整的 LLMs 生成的 46.5K 个合成剽窃案例组成。通过对每种类型的剽窃进行细粒度的自动评估和人工注释来确保 PlagBench 的质量。然后，我们利用我们提出的数据集来评估五个现代 LLMs 和三个专门的剽窃检测器的剽窃检测性能。我们的研究结果表明，与 Llama2 和 GPT-4 相比，GPT-3.5 倾向于生成更高质量的释义和摘要。尽管 LLMs 在摘要剽窃识别方面表现较差，但它们可以超过当前的商业剽窃检测器。总体而言，我们的结果突显了 LLMs 作为强大剽窃检测工具的潜力。

Jun, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

基于大型语言模型的系统回答实际临床问题

利用大型语言模型构建基于检索增强生成和创新研究的系统能为患者护理提供相关证据，提高医疗决策质量。

Jun, 2024

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

利用大型语言模型构建实际的现实会议摘要系统：实用视角

本研究通过评估和比较各种闭源和开源大型语言模型，探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明，大多数闭源模型在性能方面更好，但即使在零 - shot 情况下，较小的开源模型如 LLaMA-2（7B 和 13B）仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本，能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡，LLaMA-2-7B 模型在工业应用中更具前景。总之，本文提供了使用大型语言模型进行实际业务会议摘要的实用见解，突显性能和成本之间的权衡。

Oct, 2023