不同提示对 GPT-4 回答痴呆照料问题质量的影响

Apr, 2024

不同提示对 GPT-4 回答痴呆照料问题质量的影响

Effects of Different Prompts on the Quality of GPT-4 Responses to Dementia Care Questions

Zhuochun Li, Bo Xie, Robin Hilsabeck, Alyssa Aguirre, Ning Zou...

TL;DR通过使用 12 个提示组合在 GPT-4 中生成 36 个响应来比较 36 个响应的字数，本研究旨在探索不同提示对医疗保健领域中响应质量的影响，关注特定的医疗保健领域：痴呆症护理。

Abstract

Evidence suggests that different prompts lead large language models (LLMs) to generate responses with varying quality. Yet, little is known about prompts' effects on response quality in →

language models response quality healthcare domains dementia caregiving response length

发现论文，激发创造

监督式提示训练

通过使用监督性提示训练（Supervisory Prompt Training）方法，我们提出了一种新颖的方法，可以自动地生成高效的提示，从而提高大型语言模型（LLMs）的性能和减少幻觉，为传统的模型微调提供了一种高效且可扩展的替代方案。

Mar, 2024

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024

零轉化臨床自然語言處理中大型語言模型的提示策略實證評估

本文综合系统地对五个临床自然语言处理任务（临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取）的提示工程进行了实验研究，评估了多种提示类型在三种先进的大型语言模型（GPT-3.5、BARD 和 LLAMA2）上的性能，并提出了对临床 NLP 领域提示工程的新见解和指南。

Sep, 2023

告诉我想听的：及时知识对健康问题回答准确性的影响

本文研究了使用提示知识和不使用提示知识时，ChatGPT 生成的答案准确性的差异，并发现使用提示知识会降低答案的准确性。这对基于生成式预训练语言模型的更健壮和透明的问答系统的开发具有重要的启示作用。

Feb, 2023

部署后记忆辅助提示编辑以改进 GPT-3

利用用户交互纠正 GPT-3 模型的错误，而无需进行重新训练。本文中提出了将 GPT-3 与一个不断增长的记录案例和用户反馈的记忆相结合的方法，以产生一个可查询该记忆进行错误纠正的系统。通过证明方法可以增强大型预训练语言模型的实用性，特别是在与用户交互时，已经部署的 GPT-3 的准确性可以得到大幅提高。

Jan, 2022

通用基础模型能否超越专用调优？以医学为例的研究案例

通过对 GPT-4 的提示工程进行系统性探索，我们发现启示创新可以释放更深层次的专家能力，并且证明了 GPT-4 在医学基准测试中轻松超越了先前的主要结果。使用 Medprompt，GPT-4 在 MultiMedQA 套件的九个基准数据集上取得了最先进的结果。

Nov, 2023

基于提示的社交媒体文本精简中文专业翻译

本文介绍了一种从大规模、嘈杂的社交媒体文本数据集中进行基于提示的心理健康筛查的方法。我们的方法使用 GPT 3.5 进行提示，以区分可能与任务更相关的出版物，然后使用直观的词袋文本分类器来预测实际用户标签。结果发现与 BERT 专家混合分类器相当，并且只需要一小部分计算成本。

Jan, 2024

ChatGPT 与 Bard 在检测阿尔茨海默病痴呆方面的性能评估

LLM chatbots (ChatGPT-3.5, ChatGPT-4, and Bard) were assessed for their ability to recognize Alzheimer's Dementia and Cognitively Normal individuals using spontaneous speech recordings, showing promising performance but not yet suitable for clinical application.

Jan, 2024

诊断推理提示揭示了在医学领域中大型语言模型可解释性的潜力

GPT4 可以通过使用诊断推理提示模拟临床医生的常见临床推理过程，而不会损失诊断准确性，因此它可以为医生提供评估 LLMs 是否可信赖用于患者护理的手段。新的提示方法有潜力揭示 LLMs 的黑盒子，将它们推向在医学中安全有效使用的一步。

Aug, 2023

大型语言模型与查询工程在生物医学多文档摘要中的应用

使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要，我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实：纳入少样本的提示通常优于对应的零样本变体；检索增强生成实现了最大的改进。这些提示使得我们的最佳运行结果在 BioASQ11b 排名前两位，证明了在一般情况下，使用适当的提示对于大语言模型以及 GPT-3.5 在问题聚焦摘要中的强大作用。

Nov, 2023