评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

Jun, 2024

评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

Evaluating Open Language Models Across Task Types, Application Domains, and Reasoning Types: An In-Depth Experimental Analysis

PDF

Neelabh Sinha, Vinija Jain, Aman Chadha

TL;DR使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析，比较评估了语言模型和提示样式，并且展示了这些模型在特定需求下的有效性，以及与 SOTA 语言模型的竞争能力。

Abstract

The rapid rise of language models (lms) has expanded their use in several applications. Yet, due to constraints of model size, associated cost, or proprietary restrictions, utilizing state-of-the-art (SOTA) LLMs

language models lms semantic correctness prompt styles comparative assessment

发现论文，激发创造

评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

本研究探讨了在社会科学中使用开放生成的大型语言模型（LLMs）进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题，并主张采用可在独立设备上运行的开放（源）模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型（neural-chat-7b-v3-2，Starling-LM-7B-alpha，openchat_3.5，zephyr-7b-alpha 和 zephyr-7b-beta）的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。

Dec, 2023

开放、封闭还是小型语言模型用于文本分类？

这项研究通过评估三类模型在八个数据集上完成了三个不同任务（命名实体识别、政党预测和虚假信息检测）的性能，发现大型语言模型在某些任务上表现出色，开源模型通过微调与封闭源模型相媲美，而监督较小的模型（如 RoBERTa）在许多数据集上能够达到甚至超过生成型模型的性能，但封闭模型在需要最强泛化能力的难任务中仍然保持优势，这强调了模型选择在任务需求中的重要性。

Aug, 2023

OpenMedLM: 通过提供合适的引导信息，在使用开源大型语言模型进行医学问答时，可以超越微调方法

OpenMedLM 是一个使用 prompt 工程技术提供开放源 OS LLMs 的创新平台，它在医学基准测试中表现出 OS SOTA 结果，并通过进一步利用 prompt 工程技术提高可访问性的医学 LLMs 的性能。

Feb, 2024

本体蕴含推理的语言模型分析

研究表明，虽然预训练语言模型对于自然语言推理方面的知识有比较好的编码能力，但其对于本体论的推断需要更多的背景知识，而且在给定少量样本的情况下能够有效地进行推断。

Feb, 2023

理解大型语言模型在对话评估中的效果

本文探讨了大型语言模型在对话评估上的应用，发现训练模型的数据集的多样性和相关性是影响其性能的关键因素，同时探究了样本数量和使用类型对模型表现的影响。

Jan, 2023

大型语言模型也是优秀的原型常识推理器

通过优化任务提示和生成多样化的链式推理和知识，该研究在 ProtoQA 数据集上实现了新的高分，并提供了对大型语言模型的解释，为自然语言处理社区提供了更好的提示开发和更复杂推理任务的潜能探索。

Sep, 2023

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

基于自然语言的增强式偏好学习

使用大型语言模型（LLM）进行比较文本分类任务，不需微调，性能优于现有方法，特别是在较长的文本中。零样本学习的性能不如少样本学习。

Oct, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型能否自动评估书面文章的熟练程度？

利用大型语言模型（LLMs）对写作文章进行自动评分的实验表明，虽然适当选择题目对任务和模型性质很重要，但 ChatGPT 相比 Llama 在综合和个体写作特征上的性能稍优。尽管与 SOTA 模型相比预测存在差距，但它们提供了改善文章质量的反馈，为教师和学生提供帮助。

Mar, 2024