微型巨人：在真实世界中，小一些的大型语言模型能在会议摘要中斩获更高的分数吗？

Feb, 2024

微型巨人：在真实世界中，小一些的大型语言模型能在会议摘要中斩获更高的分数吗？

Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization?

Xue-Yong Fu, Md Tahmid Rahman Laskar, Elena Khasanova, Cheng Chen, Shashi Bhushan TN

TL;DR研究论文重点探讨了大型语言模型（LLMs）在实际工业环境中面临的挑战，比较了经过微调的紧凑型 LLMs（如 FLAN-T5、TinyLLaMA、LiteLLaMA）与零样本大型 LLMs（如 LLaMA-2、GPT-3.5、PaLM-2）在会议摘要任务上的性能表现，结果发现 FLAN-T5 是一个比较适宜的成本效益高、实际工业部署的解决方案。

Abstract

large language models (llms) have demonstrated impressive capabilities to solve a wide range of tasks without being explicitly fine-tuned on task-specific datasets. However, deploying →

large language models llms meeting summarization compact llms flan-t5

发现论文，激发创造

利用大型语言模型构建实际的现实会议摘要系统：实用视角

本研究通过评估和比较各种闭源和开源大型语言模型，探讨如何有效构建用于实际应用的会议摘要系统。研究结果表明，大多数闭源模型在性能方面更好，但即使在零 - shot 情况下，较小的开源模型如 LLaMA-2（7B 和 13B）仍可达到与大型闭源模型相当的性能。综合考虑闭源模型的隐私问题和使用经过微调的闭源模型的高成本，能够取得竞争性性能的开源模型更适合工业应用。在性能、成本和隐私问题之间取得平衡，LLaMA-2-7B 模型在工业应用中更具前景。总之，本文提供了使用大型语言模型进行实际业务会议摘要的实用见解，突显性能和成本之间的权衡。

Oct, 2023

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

超小型语言模型

通过引入一系列研究工作，本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现，包括字节级的分词和汇聚机制、参数联系以及高效的训练策略，以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现，未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题，旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。

May, 2024

TinyStories: 语言模型有多小才能够流利地说英语？

本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法，该数据集使用 GPT-3.5 和 GPT-4 生成，只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型，并引入新的评估范式来评估这些模型的语言能力和多维度的得分，例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究，并提高对于语言模型能力的认识。

May, 2023

大型语言模型的合法性及局限性：构建强大的法律语言模型的论证

近期自然语言处理（NLP）在法律领域的应用面临诸多挑战，包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型（LLMs）的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现，通过比较三个通用 LLMs（ChatGPT-20b，LLaMA-2-70b 和 Falcon-180b）在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据，但我们观察到它们在大多数情况下仍能正确分类主题。然而，我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8％，这凸显了需要更强大的法律领域 LLMs。

Nov, 2023

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

零样本对话摘要评估与小型大型语言模型

大型语言模型在会话摘要方面的能力有待探索，本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能，展示了其对各种提示的表现，并且证明了模型生成的摘要取决于指令，LLMs 在不同指令下的性能差异，如果提示选择不当，有时会导致 ROUGE 分数的显著下降，还通过人工评估对模型进行了评估，并讨论了模型在会话摘要方面的限制。

Nov, 2023

微调的「小型」LLM 在文本分类中仍显著优于零样本生成式 AI 模型

通过比较生成型 AI 模型和经过细调的 LLMs，在文本分类任务中，利用应用特定训练数据进行细调的模型表现优异，从而验证了生成型 AI 模型在兑现其承诺方面存在问题。

Jun, 2024

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024