本研究使用 adversarial prompts 对 Large Language Models 进行度量,并分析了 prompt 鲁棒性及其传递性,为 prompt 组合提供了实用性建议。
Jun, 2023
大语言模型的关键因素在于提示设计对其性能会产生巨大影响,通过许多方面的分析研究,我们发现几种常用开源大语言模型对微妙的提示格式变化具有极高的敏感性,这种敏感性在不断增加模型大小、样本数量或进行指令调整时仍然存在。
Oct, 2023
通过综合分析来自 3 个评估基准的 39 项任务、20 种不同的大型语言模型和 650 万个实例的单提示评估结果的脆弱性,我们提出使用一套多样的提示来评估大型语言模型,为特定的使用场景(例如 LLM 开发人员与对特定下游任务感兴趣的开发人员)设计定制化的评估指标,从而增强对当前大型语言模型真实优势和限制的准确可靠的评估。同时,我们实施了这些标准并对多个模型进行了评估,为当前大型语言模型的真正优势和限制提供了深入的见解。
Dec, 2023
本论文介绍了 PromptEval 方法,用于在实践评估预算下估计许多提示变体的性能分布,并证明其一致地估计了性能分布,在三个著名的 LLM 基准测试中取得了实证效果。
May, 2024
通过对语言模型的提示和降低困惑度等优化,可以改善模型在 zero-shot 学习中的性能。
Dec, 2022
通过 Quantum-Bench,我们比较了多种先进模型在对抗伪信息的能力上的表现,并提出了通过增加伪信息以增强模型韧性的建议。
Feb, 2024
通过系统分析大型语言模型(LLMs)抵抗提示扰动的稳定性,本研究构建 E-Bench 模拟真实人类使用情况,并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因,实验证明即便随着模型规模的增加,易用性显著提升,但仍需努力建立足够用户友好的模型。
Jun, 2024
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
评估了各种 LLM 在生成 Python 代码方面的性能,揭示了创建准确的 Python 函数的理想提示策略。
Nov, 2023
通过使用 RankPrompt 方法,LLMs 可以自我评级其回答,从而显著提高 ChatGPT 和 GPT-4 的推理表现。
Mar, 2024