通过语言模型生成的合成临床数据提高临床 NLP 性能

Mar, 2024

通过语言模型生成的合成临床数据提高临床 NLP 性能

Improving Clinical NLP Performance through Language Model-Generated Synthetic Clinical Data

Shan Chen, Jack Gallifant, Marco Guevara, Yanjun Gao, Majid Afshar...

TL;DR利用生成模型生成的合成数据，本研究探讨了利用合成数据提高临床自然语言处理性能的方法。结果显示在这个高风险领域中有可行的应用前景。

Abstract

generative models have been showing potential for producing data in mass. This study explores the enhancement of clinical natural language processing performance by utilizing →

generative models clinical natural language processing synthetic data advanced language models high-stakes domain

发现论文，激发创造

知识注入引导：基于大型语言模型的临床文本数据生成评估与推进

通过结合临床领域特定知识图谱和大语言模型，在临床自然语言处理中提出了一种创新、资源高效的方法 ClinGen，通过临床知识提取和上下文信息化的大语言模型指导数据生成，持续提升性能，对生成训练实例的多样性和真实数据分布进行有效调整。

Nov, 2023

合成数据是否使得大型语言模型更高效？

本文探讨了在自然语言处理中合成数据生成的细微差别，重点放在基于模板的问题生成上，并比较了其优点和局限性，最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上，确保在多种应用中获得最佳模型性能。

Oct, 2023

低语言模型 (Synthetic Data Generation of LLMs) 是否有助于临床文本挖掘？

本研究旨在探究将 ChatGPT 应用于临床文本挖掘中，针对生物命名实体识别和关系抽取，我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明，这种方法显著提高了下游任务的性能，同时缓解了数据隐私问题。

Mar, 2023

利用生成模型提升临床文档的质量

通过合成数据生成技术来提升临床文档编制的方法，生成高质量的合成文本以准确和高效地改善现有的文档工作流程，进而改善病患护理、减少行政负担和提高医疗系统效率。

Jun, 2024

基于神经语言模型的可共享合成临床记录自动生成技术的研究

研究使用生成模型生成合成临床笔记，以更好地保护患者隐私并促进临床 NLP 模型的开发。

May, 2019

临床 GPT：基于多样医疗数据微调的大型语言模型和全面评估

本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT，通过整合大量临床实际数据、领域特定知识和多轮次对话信息，使其更好地处理多种临床任务，并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型，突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。

Jun, 2023

利用大型语言模型生成合成数据以提高基于 BERT 的神经网络的性能

利用大型语言模型（LLMs）生成的合成观察数据，用于改善机器学习模型对于自闭症谱系障碍（ASD）诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据，并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异，发现数据增加了召回率 13%，但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。

May, 2024

非自然语言处理：弥合合成语言与自然语言数据之间的差距

通过 “模拟到真实” 的技术，本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型，再利用学习到的句子嵌入来定义距离度量，从而实现将自然语言映射到合成数据集的支撑上，训练出只使用合成训练数据的自然语言处理模型，其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。

Apr, 2020

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

利用大型语言模型加速临床证据综合

利用 TrialMind 等基于 LLMs 的人工智能模型，我们介绍了一种为进行医学系统评价而设计的生成型 AI 流水线。通过结合人类专家的监督，我们证明了 TrialMind 显著提高了文献综述的过程，并在从超过 2000 万篇 PubMed 文章中搜索研究、筛选研究和提取结果的过程中取得了优异的性能。结果还显示，与 GPT-4 基准相比，八位人类评估者更喜欢 TrialMind，其有效率提升了临床研究的效率。

Jun, 2024