关于大型语言模型最差提示性能的研究

Jun, 2024

关于大型语言模型最差提示性能的研究

On the Worst Prompt Performance of Large Language Models

Bowen Cao, Deng Cai, Zhisong Zhang, Yuexian Zou, Wai Lam

TL;DR大型语言模型在实际应用中存在可靠性问题，而使用提示工程和一致性方法在改善模型性能上的作用有限。因此，我们需要创建更具弹性的语言模型，以适应多样的提示并保持高性能。

Abstract

The performance of large language models (LLMs) is acutely sensitive to the phrasing of prompts, which raises significant concerns about their re

large language models prompts reliability benchmark model performance

发现论文，激发创造

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

量化语言模型对触发设计中伪特征的敏感性，或：我如何开始担忧触发格式

大语言模型的关键因素在于提示设计对其性能会产生巨大影响，通过许多方面的分析研究，我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性，这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。

Oct, 2023

当下现状？对多指令语言模型评估的呼吁

通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性，我们提出使用一套多样的提示来评估大型语言模型，为特定的使用场景（例如 LLM 开发人员与对特定下游任务感兴趣的开发人员）设计定制化的评估指标，从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时，我们实施了这些标准并对多个模型进行了评估，为当前大型语言模型的真正优势和限制提供了深入的见解。

Dec, 2023

LLM 的高效多提示评估

本论文介绍了 PromptEval 方法，用于在实践评估预算下估计许多提示变体的性能分布，并证明其一致地估计了性能分布，在三个著名的 LLM 基准测试中取得了实证效果。

May, 2024

通过困惑度估计解密语言模型中的提示

通过对语言模型的提示和降低困惑度等优化，可以改善模型在 zero-shot 学习中的性能。

Dec, 2022

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

测试在不同级别的提示特异性下进行的代码生成的 LLMs

评估了各种 LLM 在生成 Python 代码方面的性能，揭示了创建准确的 Python 函数的理想提示策略。

Nov, 2023

RankPrompt: 逐步对比使语言模型成为更好的推理者

通过使用 RankPrompt 方法，LLMs 可以自我评级其回答，从而显著提高 ChatGPT 和 GPT-4 的推理表现。

Mar, 2024