通过提示调整的大型语言模型进行医患对话的自动摘要
通过基于生成型大型语言模型(LLM)的通用文本到文本学习架构和提示调优,解决主要的临床自然语言处理(NLP)任务,并提供了最新的性能。
Dec, 2023
通过使用两种不同的提示策略(即 shot 提示和 pattern 提示),该研究通过结合范围和领域上下文,改善了自动医学报告的性能,并且获得了最高分数,超过了一般执业医生的参考文献。然而,由于报告中添加了冗余和相关陈述,自动报告的长度大约是人工参考的两倍。
Nov, 2023
本文使用 2770 亿行混合临床和英文文本的 GPT-3 架构,开发了一种名为 GatorTronGPT 的临床生成 LLM,以提高医学研究的生物医学自然语言处理。通过使用 GatorTronGPT 训练的合成自然语言处理模型的生成文本,性能优于使用现实临床文本训练的模型。在医生的图灵测试中,医生不能区分 GatorTronGPT 所生成的文本和人类所生成的文本。该研究为 LLMs 在医学研究和医疗保健中的机遇和挑战提供了深入的见解。
May, 2023
本研究使用 GPT-3 模型,将医学对话摘要问题离散成多个对话理解任务,并动态构建少样本提示进行实验,开发了基于 GPT 的度量标准,评估任务性能,经过研究评价证实,此方法生成的摘要临床准确性优于基准方法。
May, 2023
利用软提示学习架构,该研究提出了一种新的方法来引导大型语言模型实现对患者信息的提取,评估了两种类型的语言模型在跨领域应用中的性能,并发现使用解码器模型进行软提示调优的结果更好。GatorTronGPT 在最佳 F1 得分上超过传统的 GatorTron 模型,分别在跨机构环境中提高了 8.9% 和 21.8%,在跨疾病环境中提高了 5.5% 和 14.5%。
Mar, 2024
本文介绍了一种名为 SpeechGen 的框架,使用 10M 个可训练参数,探索了提示调整方法来刺激语音语言模型进行各种生成任务,为更高效和有效地生成任务提供了前景。
Jun, 2023
使用提示工程和 GPT-3.5 进行生物医学问题聚焦多文档摘要,我们的系统在 2023BioASQ 挑战中通过 GPT-3.5 和适当的提示获得了最佳的 ROUGE-F1 结果。这篇论文证实了在其他领域观察到的事实:纳入少样本的提示通常优于对应的零样本变体;检索增强生成实现了最大的改进。这些提示使得我们的最佳运行结果在 BioASQ11b 排名前两位,证明了在一般情况下,使用适当的提示对于大语言模型以及 GPT-3.5 在问题聚焦摘要中的强大作用。
Nov, 2023
开发用于大型语言模型的软提示学习算法,研究词干的形状、使用冻结 / 非冻结语言模型进行文字调优、迁移学习和少样本学习的能力。
Oct, 2023
使用 ChatGPT 生成高质量反馈数据,从而改善临床笔记概括任务中的事实一致性,并展示了 GPT 编辑在人类对齐中的潜在用途,特别是从事实角度。
Oct, 2023
该研究探索了 ChatGPT 和 GPT-4 等大型语言模型在遵循人类对话摘要指南方面的能力。研究使用 DialogSum 和 DECODA 进行了实验,测试了从现有文献和人类摘要指南中提取的不同提示以及一种两步提示方法。我们的研究结果表明,GPT 模型通常会产生冗长的摘要,并偏离人类摘要指南。然而,使用人类指南作为中间步骤显示出一定的潜力,在某些情况下优于直接的字数限制提示。结果显示,GPT 模型在摘要中表现出独特的文体倾向。虽然 BERTScores 并没有明显下降,说明 GPT 的输出在语义上与人类参考和专门的预训练模型具有相似性,但 ROUGE 分数揭示了 GPT 生成的摘要与人类撰写的摘要之间的语法和词汇差异。这些发现为 GPT 模型在遵循人类对话摘要指南方面的能力和局限性提供了启示。
Oct, 2023