AE-GPT: 使用大型语言模型从监测报告中提取不良事件 - 以流感疫苗不良事件为案例

Sep, 2023

AE-GPT: 使用大型语言模型从监测报告中提取不良事件 - 以流感疫苗不良事件为案例

AE-GPT: Using Large Language Models to Extract Adverse Events from Surveillance Reports-A Use Case with Influenza Vaccine Adverse Events

PDF

Yiming Li, Jianfu Li, Jianping He, Cui Tao

TL;DR利用 1990 年至 2016 年之间的 Vaccine Adverse Event Reporting System (VAERS) 数据，本研究重点评估了大型语言模型（LLMs）在不良事件（AEs）提取方面的能力，其中包括 GPT-2，GPT-3 变体，GPT-4 和 Llama 2 等多种流行 LLMs。其中，经过微调的 GPT 3.5 模型（AE-GPT）在严格匹配方面取得了 0.704 的平均微 F1 分数，松弛匹配方面为 0.816。AE-GPT 的鼓舞人心的表现突出了 LLMs 在处理医疗数据方面的潜力，标志着在高级 AE 检测方面又迈出了重要一步，因此可能推广到其他 AE 提取任务。

Abstract

Though vaccines are instrumental in global health, mitigating infectious diseases and pandemic outbreaks, they can occasionally lead to adverse events (AEs). Recently, →

vaccines adverse events large language models ae extraction medical data

发现论文，激发创造

通过深度学习和精调的大型语言模型构建集成模型以提升实体识别性能：多源不良事件抽取案例研究

本篇研究旨在评估 LLMs 和传统深度学习模型在提取 AE 信息方面的有效性，并评估这些模型集成对性能的影响。研究发现，利用优化后的传统深度学习模型和 LLMs 进行集成，能够在提取疫苗、注射和不良事件方面实现最高性能，同时对整体性能的评估也得到了显著提高。这项研究对生物医学自然语言处理的发展做出了贡献，并为从文本数据中提取 AE 相关信息的药物监测和公共卫生监测提供了宝贵的见解。

Jun, 2024

使用大型语言模型进行生物医学知识提取的精馏：以药物不良反应为例的案例研究

该论文研究了如何使用基于自我监督学习的蒸馏模型，以大幅提高大型语言模型在生物医学知识整理和提取方面的效率和准确性。在药物不良事件提取等主要医学知识提取任务上，这种方法大大超越了标准模型，并具有成本效益和访问模型内部结构等优点。

Jul, 2023

基础大型语言模型能辅助进行制药生产调查吗？

利用历史记录，将大型语言模型（LLM）应用于制药生产调查，提取特定信息并进行语义搜索。

Apr, 2024

在药物监测事件提取中利用 ChatGPT 的实证研究

探索大型语言模型 (LLMs) 在医学应用方面的潜力，特别是在药物监测事件提取方面的 ChatGPT 的能力。我们进行了广泛的实验，评估了 ChatGPT 在药物监测事件提取任务中的性能，并采用了各种提示和演示选择策略。研究结果表明，虽然 ChatGPT 在适当的演示选择策略下表现出了合理的性能，但与完全微调的小型模型相比仍然有所不足。此外，我们探索了利用 ChatGPT 进行数据增强的潜力。然而，我们的研究发现将合成数据引入微调可能会导致性能下降，可能是由于 ChatGPT 生成的标签中存在噪声。为了减轻这个问题，我们探索了不同的过滤策略，并发现在适当的方法下可以实现更稳定的性能，尽管不断改进仍然具有挑战性。

Feb, 2024

利用大型语言模型为患者匹配临床试验

研究使用大型语言模型（LLMs）协助患者和转诊医生从广泛的选择中筛选适合的临床试验，并评估了 TrialGPT 在 184 名患者和 18,238 个注释临床试验的实验结果，表明其高准确性和排名排除不合格候选试验的有效性。

Jul, 2023

利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能

利用大型语言模型（LLMs）生成的合成观察数据，用于改善机器学习模型对于自闭症谱系障碍（ASD）诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据，并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异，发现数据增加了召回率 13%，但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。

May, 2024

将大型语言模型凝聚用于将患者匹配到临床试验

探究专有和开源大型语言模型在患者试验匹配任务中的有效性，并证明在有限和合成数据集上进行微调后，开源模型与专有模型性能相当，从而为它们在实际医疗应用中的部署提供了巨大机会。

Dec, 2023

GPT-4 作为评估器：在农业中评估大型语言模型的农害管理

通过对农业领域（特别是害虫管理）中人工智能大型语言模型（LLMs）生成的害虫管理建议内容进行评估，证明了人工智能大型语言模型在农业中的可行性，并且通过创新方法使用 GPT-4 作为评估器，在相关领域专家系统的基础上，综合评分，显示出 GPT-3.4 和 GPT-4 在大多数评估类别中优于 FLAN 模型，验证了人工智能大型语言模型在提供农业害虫管理建议方面的有效性和准确性（准确率为 72%）。

Mar, 2024

大型通用语言模型在评估从成人重症监护电子病历记录中提取的语义概念上的应用评估

通过医生评注和认定的方法，我们研究了三种通用大型语言模型（LLMs）在理解和处理真实世界临床笔记中的性能，并发现 GPT-4 整体表现优于其他 LLMs。此外，我们开发了一个全面的定性性能评估框架，旨在验证 LLMs 在处理复杂医学数据方面的能力，并为将来在专门领域的 LLM 评估建立基准。

Jan, 2024

填补药物安全数据分析的空白：基于大型语言模型的 SQL 查询生成

利用 OpenAI 的 GPT-4 开发的聊天机器人应用，通过自然语言生成结构化查询语言（SQL）查询，从而实现非技术用户对数据库的访问，拓宽了数据的使用范围，提升了决策效率，促进各种数据密集型领域的药物安全和决策制定。

Jun, 2024