开放、封闭还是小型语言模型用于文本分类？

Aug, 2023

开放、封闭还是小型语言模型用于文本分类？

Open, Closed, or Small Language Models for Text Classification?

Hao Yu, Zachary Yang, Kellin Pelrine, Jean Francois Godbout, Reihaneh Rabbany

TL;DR这项研究通过评估三类模型在八个数据集上完成了三个不同任务（命名实体识别、政党预测和虚假信息检测）的性能，发现大型语言模型在某些任务上表现出色，开源模型通过微调与封闭源模型相媲美，而监督较小的模型（如 RoBERTa）在许多数据集上能够达到甚至超过生成型模型的性能，但封闭模型在需要最强泛化能力的难任务中仍然保持优势，这强调了模型选择在任务需求中的重要性。

Abstract

Recent advancements in large language models have demonstrated remarkable capabilities across various nlp tasks. But many questions remain, including whether →

large language models nlp tasks open-source models fine-tuning model selection

发现论文，激发创造

评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析，比较评估了语言模型和提示样式，并且展示了这些模型在特定需求下的有效性，以及与 SOTA 语言模型的竞争能力。

Jun, 2024

工业应用中高效问答的开源语言模型基准测试

该论文通过对问题回答任务进行综合基准测试研究，旨在识别对实际应用具有可比较性能且资源要求轻的开源替代方案，以解决工业领域对可访问和高效的自然语言处理解决方案的紧迫需求。

Jun, 2024

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

本研究探讨了在社会科学中使用开放生成的大型语言模型（LLMs）进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题，并主张采用可在独立设备上运行的开放（源）模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型（neural-chat-7b-v3-2，Starling-LM-7B-alpha，openchat_3.5，zephyr-7b-alpha 和 zephyr-7b-beta）的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。

Dec, 2023

研究 LLM 在闭源和开源数据上的性能

大型语言模型在软件工程实践中得到广泛应用，本文使用微软的专有闭源软件数据进行研究，发现对于 C# 的性能变化很小，但对于 C++ 的性能显著降低，这种差异是由标识符的不同导致的，有时可以通过上下文学习来有效改善性能下降的问题。

Feb, 2024

使用开源代码训练大型语言模型的（滥）用

本研究探讨使用未经授权的代码构建 LLMs 所带来的安全、隐私和版权问题，并提出了四条可行的建议。

Feb, 2023

开源语言模型在医学文本数据摘要中的比较分析

在医疗笔记和对话中，非结构化文本具有丰富的信息。最近大型语言模型（LLMs）的进展展示了对非结构化文本数据的问题回答和摘要任务的卓越性能，超过了传统的文本分析方法。然而，在文献中缺乏有系统地评估和报告不同 LLMs 性能的科学研究，特别是针对医疗病历等特定领域数据。我们提出了一种评估方法来分析开源 LLMs（如 Llama2 和 Mistral）在医疗摘要任务中的性能，使用 GPT-4 作为评估器。我们创新的 LLMs 定量评估方法可以实现质量控制，支持为特定任务选择有效的 LLMs，并推进数字健康领域的知识发现。

May, 2024

ML-Bench：大型语言模型基于开源库进行机器学习任务

通过使用开源库完成机器学习任务，本文旨在提出一种新的评估设置，以评估大型语言模型（LLMs）在实际编程中的适用性，并介绍了 ML-Bench 和 ML-Agent 两个工具，用于评估 LLMs 在利用开源函数时的有效性。

Nov, 2023

开源语言模型的反馈能力评估：利用 GPT-4 作为评委帮助学生的能力

通过使用 GPT-4 对多个开源语言模型的反馈进行评估，本研究探讨了大型语言模型在教育领域中生成反馈的质量，并发现一些模型在性能上可以与专有的语言模型竞争，从而为其在教学环境中的负责任使用提供机会。

May, 2024