计算社会科学任务中的提示设计对结果具有重要影响，但其方式难以预测

Jun, 2024

计算社会科学任务中的提示设计对结果具有重要影响，但其方式难以预测

Prompt Design Matters for Computational Social Science Tasks but in Unpredictable Ways

Shubham Atreja, Joshua Ashkinaze, Lingyao Li, Julia Mendelsohn, Libby Hemphill

TL;DR手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明，零 - shot 设置下，语言模型可以执行此类注释任务，但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验，以测试模型选择（ChatGPT、PaLM2 和 Falcon7b）和提示设计特征（定义包含、输出类型、解释和提示长度）对 LLM 生成注释的遵从和准确性的影响，针对四个计算社会科学任务（毒性、情感、谣言态度和新闻框架）。我们的结果表明，LLM 的遵从和准确性高度依赖于提示。例如，提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言，最佳的提示设置取决于任务，微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响，本研究作为研究人员和从业者的警示和实践指南。

Abstract

Manually annotating data for computational social science tasks can be costly, time-consuming, and emotionally draining. While recent work suggests that LLMs can perform such annotation tasks in zero-shot setting

computational social science llms compliance prompt design annotation tasks prompting setup

发现论文，激发创造

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

触发语言：什么语言属性使得提示成功？

在这项研究中，我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能，发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释，并提出了对提示研究更健壮和综合的评估标准的建议。

Nov, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

关于上下文学习中零样本提示设计的实际调查

该论文综述了大型语言模型在自然语言处理任务中的重要性，并聚焦于不同类型的提示（如离散、连续、少样本和零样本）及其对模型性能的影响。论文探讨了手动设计、优化算法和评估方法等多种提示设计方法，以优化模型在不同任务中的性能。此外，论文还讨论了评估提示性能所面临的挑战，并指出了提示设计在充分利用大型语言模型的潜力中的关键作用，为在自然语言处理任务中更有效、更高效地使用大型语言模型提供了启示。

Sep, 2023

大型语言模型的高效提示方法综述

在这篇论文中，我们对高效提示的各种方法进行了全面的概述，包括使用高效计算和高效设计进行提示的方法，重点关注未来的研究方向。

Apr, 2024

文本生成的更好 LLM 评估器：提示输出排序和优化的影响

通过研究大型语言模型的评估生成文本的提示设计，本研究发现不同提示结构和包含解释性原因的顺序对语言模型评分有重要影响，进而提出了优化评分一致性的方法。

Jun, 2024

零轉化臨床自然語言處理中大型語言模型的提示策略實證評估

本文综合系统地对五个临床自然语言处理任务（临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取）的提示工程进行了实验研究，评估了多种提示类型在三种先进的大型语言模型（GPT-3.5、BARD 和 LLAMA2）上的性能，并提出了对临床 NLP 领域提示工程的新见解和指南。

Sep, 2023

反演上下文学习：通过破坏理解提示

通过对大语言模型进行随机组成的实验，研究了任务描述、示例输入、标签、行内指令等多个因素对模型性能的影响，发现重复文本、大型模型以及任务和行内指令对模型性能提升具有积极影响。

Apr, 2024

重新审视自动提示：我们真的做得更好了吗？

本文研究了自动提示技术在六个不同的下游任务和更广泛的 K-shot 学习场景中的应用。我们发现，自动提示并不总是优于简单的手动提示。我们的研究表明，在这一领域的研究中，除了 fine-tuning 之外还应该使用手动提示作为基线。

Apr, 2023