通过语言模型生成的合成临床数据提高临床 NLP 性能
通过结合临床领域特定知识图谱和大语言模型,在临床自然语言处理中提出了一种创新、资源高效的方法 ClinGen,通过临床知识提取和上下文信息化的大语言模型指导数据生成,持续提升性能,对生成训练实例的多样性和真实数据分布进行有效调整。
Nov, 2023
本文探讨了在自然语言处理中合成数据生成的细微差别,重点放在基于模板的问题生成上,并比较了其优点和局限性,最后通过实证评估展示了基于模板的合成数据对现代转换器模型性能的影响。研究结果旨在指导自然语言处理从业者在利用合成数据的潜力上,确保在多种应用中获得最佳模型性能。
Oct, 2023
本研究旨在探究将 ChatGPT 应用于临床文本挖掘中,针对生物命名实体识别和关系抽取,我们提出了一种基于生成大量合成数据进行本地模型微调的训练范式。结果表明,这种方法显著提高了下游任务的性能,同时缓解了数据隐私问题。
Mar, 2023
通过合成数据生成技术来提升临床文档编制的方法,生成高质量的合成文本以准确和高效地改善现有的文档工作流程,进而改善病患护理、减少行政负担和提高医疗系统效率。
Jun, 2024
本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明其在这些任务中显著优于其他模型,突出了我们的方法在将大型语言模型应用于卫生保健这一关键领域的有效性。
Jun, 2023
利用大型语言模型(LLMs)生成的合成观察数据,用于改善机器学习模型对于自闭症谱系障碍(ASD)诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据,并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异,发现数据增加了召回率 13%,但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。
May, 2024
通过 “模拟到真实” 的技术,本文提出通过合成数据生成程序与训练能够准确解释这些合成数据的模型,再利用学习到的句子嵌入来定义距离度量,从而实现将自然语言映射到合成数据集的支撑上,训练出只使用合成训练数据的自然语言处理模型,其在多个领域的表现已经与使用自然语言数据训练的最先进的模型相匹配或超越。
Apr, 2020
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
利用 TrialMind 等基于 LLMs 的人工智能模型,我们介绍了一种为进行医学系统评价而设计的生成型 AI 流水线。通过结合人类专家的监督,我们证明了 TrialMind 显著提高了文献综述的过程,并在从超过 2000 万篇 PubMed 文章中搜索研究、筛选研究和提取结果的过程中取得了优异的性能。结果还显示,与 GPT-4 基准相比,八位人类评估者更喜欢 TrialMind,其有效率提升了临床研究的效率。
Jun, 2024