不同提示对 GPT-4 回答痴呆照料问题质量的影响
通过使用监督性提示训练(Supervisory Prompt Training)方法,我们提出了一种新颖的方法,可以自动地生成高效的提示,从而提高大型语言模型(LLMs)的性能和减少幻觉,为传统的模型微调提供了一种高效且可扩展的替代方案。
Mar, 2024
评估大型语言模型在代码生成方面的效果时,需要使用健全的基准测试,而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示,以确定其中的质量问题,并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习,且缺乏上下文依赖关系,同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能,但对 Java 代码生成的改进不明显。此外,还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。
Apr, 2024
本文综合系统地对五个临床自然语言处理任务(临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取)的提示工程进行了实验研究,评估了多种提示类型在三种先进的大型语言模型(GPT-3.5、BARD 和 LLAMA2)上的性能,并提出了对临床 NLP 领域提示工程的新见解和指南。
Sep, 2023
本文研究了使用提示知识和不使用提示知识时,ChatGPT 生成的答案准确性的差异,并发现使用提示知识会降低答案的准确性。这对基于生成式预训练语言模型的更健壮和透明的问答系统的开发具有重要的启示作用。
Feb, 2023
利用用户交互纠正 GPT-3 模型的错误,而无需进行重新训练。本文中提出了将 GPT-3 与一个不断增长的记录案例和用户反馈的记忆相结合的方法,以产生一个可查询该记忆进行错误纠正的系统。通过证明方法可以增强大型预训练语言模型的实用性,特别是在与用户交互时,已经部署的 GPT-3 的准确性可以得到大幅提高。
Jan, 2022
通过对 GPT-4 的提示工程进行系统性探索,我们发现启示创新可以释放更深层次的专家能力,并且证明了 GPT-4 在医学基准测试中轻松超越了先前的主要结果。使用 Medprompt,GPT-4 在 MultiMedQA 套件的九个基准数据集上取得了最先进的结果。
Nov, 2023
本文介绍了一种从大规模、嘈杂的社交媒体文本数据集中进行基于提示的心理健康筛查的方法。我们的方法使用 GPT 3.5 进行提示,以区分可能与任务更相关的出版物,然后使用直观的词袋文本分类器来预测实际用户标签。结果发现与 BERT 专家混合分类器相当,并且只需要一小部分计算成本。
Jan, 2024
LLM chatbots (ChatGPT-3.5, ChatGPT-4, and Bard) were assessed for their ability to recognize Alzheimer's Dementia and Cognitively Normal individuals using spontaneous speech recordings, showing promising performance but not yet suitable for clinical application.
Jan, 2024
GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程,而不会损失诊断准确性,因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子,将它们推向在医学中安全有效使用的一步。
Aug, 2023
使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要,我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实:纳入少样本的提示通常优于对应的零样本变体;检索增强生成实现了最大的改进。这些提示使得我们的最佳运行结果在 BioASQ11b 排名前两位,证明了在一般情况下,使用适当的提示对于大语言模型以及 GPT-3.5 在问题聚焦摘要中的强大作用。
Nov, 2023