评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

Dec, 2023

评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

Evaluation is all you need. Prompting Generative Large Language Models for Annotation Tasks in the Social Sciences. A Primer using Open Models

PDF

Maximilian Weber, Merle Reichardt

TL;DR本研究探讨了在社会科学中使用开放生成的大型语言模型（LLMs）进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题，并主张采用可在独立设备上运行的开放（源）模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型（neural-chat-7b-v3-2，Starling-LM-7B-alpha，openchat_3.5，zephyr-7b-alpha 和 zephyr-7b-beta）的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。

Abstract

This paper explores the use of open generative large language models (LLMs) for annotation tasks in the social sciences. The study highlights the challenges associated with →

open generative large language models annotation tasks proprietary models reproducibility privacy concerns

发现论文，激发创造

开源大型语言模型在文本注释任务中胜过众包工作者并接近 ChatGPT

研究比较了开源的大型语言模型（LLMs），ChatGPT 和人工服务（如 MTurk）在文本标注任务中的表现。发现开源 LLMs 在高效性，透明性，可再现性和数据保护方面具有竞争力，虽然 ChatGPT 在大多数任务中表现最好，但开源 LLMs 在特定任务中也有较高的竞争潜力。

Jul, 2023

AnnoLLM: 使大型语言模型成为更好的众包注释工具

本文提出了一种基于大型语言模型的数据注释方法，通过提示示例和解释的方式，实现了无监督的数据注释，实验结果表明该方法优于众包注释方法。

Mar, 2023

大型语言模型文本标注的最佳实践

本文提出了对大型语言模型（LLMs）的可靠、可重复和符合伦理的使用的全面标准和最佳实践，涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域，强调了对 LLMs 的结构化、有导向性和格式化的使用的需求，以确保文本注释实践的完整性和鲁棒性，并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。

Feb, 2024

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用 LLM 的注释潜力，然后使用 GPT-4 复制 27 个注释任务，发现文本注释的 LLM 性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的 LLM 部署。

May, 2023

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

评估开放式语言模型在任务类型、应用领域和推理类型方面的性能：一项深入实验分析

使用十个较小、开放式的语言模型在任务类型、应用领域和推理类型等三个方面进行了深入的实验分析，比较评估了语言模型和提示样式，并且展示了这些模型在特定需求下的有效性，以及与 SOTA 语言模型的竞争能力。

Jun, 2024

生成式大型语言模型是全能文本分析引擎：文本对文本学习是您所需的全部

通过基于生成型大型语言模型（LLM）的通用文本到文本学习架构和提示调优，解决主要的临床自然语言处理（NLP）任务，并提供了最新的性能。

Dec, 2023

使用大型语言模型丰富机器学习数据集文档

本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度，并将其用于丰富数据集描述的方法。通过此方法，可以创建机器可读的文档，改善数据集的可发现性，评估其符合当前的 AI 法规，并改善对其训练的 ML 模型的整体质量。

Apr, 2024

社会学习：朝着与大型语言模型进行合作学习

在大型语言模型（LLMs）中，介绍了 “社交学习” 的框架，其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法，第一种情景中，模型生成抽象提示用于教授任务，而我们的第二种方法中，模型通过生成合成示例来传递知识。我们在多个数据集上评估了这些方法，并以记忆作为隐私损失的代理进行了量化。这些受社交学习启发的技术得到了有希望的结果，原始数据的记忆化较低。特别是，我们表明使用这些方法的性能与使用原始标签和提示的结果相当。我们的工作证明了社交学习在 LLMs 中的可行性，建立了基础方法，并突出了几个尚未开发的领域的重要性。

Dec, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023