TELeR: 用于复杂任务基准测试的 LLM 提示的通用分类
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023
通过引入层次化提示分类法及其规则以及自适应层次化提示框架,研究衡量大型语言模型在解决多样任务中的效果,进而发展一种用于评估数据集复杂性和语言模型能力的通用评价指标。
Jun, 2024
通过构建新数据集和提出五个评估任务,全面评估不同方法在文本到 SQL 过程中的性能,揭示了大型语言模型之间的性能差异,并提出了针对每个任务的最佳上下文学习解决方案,为改进基于大型语言模型的文本到 SQL 系统的开发提供了有价值的见解。
Mar, 2024
通过细致地剖析 80 篇论文,我们研究了软件测试和验证研究社区如何抽象构建基于大型语言模型(LLMs)的解决方案。我们验证了下游任务是否能够传达基于提示的解决方案的蓝图,并确定了解决方案中的任务数量和性质。为此,我们开发了一种新的下游任务分类方法,能够在涵盖测试、模糊测试、调试、漏洞检测、静态分析和程序验证方法的软件工程问题的多样化光谱中准确定位一些工程模式。
Apr, 2024
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
大型语言模型在各种下游任务中表现出显著性能,而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究,突出设计提示的局限性,同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维,我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外,我们引入了一个新的分类法,将目标导向的提示方法分为五个相互关联的阶段,并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向,希望进一步强调和推动目标导向的提示工程。
Jan, 2024
在这项研究中,我们调查了不同规模、预训练和指导调优的 LLMs 在在语义上等效但语言结构不同的提示上的性能,发现 LLMs 的性能不能通过困惑度、词频、歧义或提示长度来解释,并提出了对提示研究更健壮和综合的评估标准的建议。
Nov, 2023
手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明,零 - shot 设置下,语言模型可以执行此类注释任务,但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验,以测试模型选择(ChatGPT、PaLM2 和 Falcon7b)和提示设计特征(定义包含、输出类型、解释和提示长度)对 LLM 生成注释的遵从和准确性的影响,针对四个计算社会科学任务(毒性、情感、谣言态度和新闻框架)。我们的结果表明,LLM 的遵从和准确性高度依赖于提示。例如,提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言,最佳的提示设置取决于任务,微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响,本研究作为研究人员和从业者的警示和实践指南。
Jun, 2024
当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究,通过全面考察 4 个相关类型的任务上的 7 个 LLM,这些任务是基于 6 个分类基准构建的。我们发现 LLM 具备良好的多问题解决能力:它们在多问题任务上的表现通常接近或与单问题任务一样好。此外,与常见预期相反,它们在长输入下通常不会出现位置偏差。这使得多问题提示成为一种简单且成本效益高的实用方法。然而,我们的结果还强烈表明 LLM 缺乏真正的理解:在两个索引选择任务中,它们的表现显著不如在多问题任务中,尽管它们在一般情况下确实能够进行索引选择。
Jun, 2024