断言检测大型语言模型上下文学习 LoRA 微调
借助基于提示的学习,通过 “推理感知” 的诊断框架实现了对临床推理进行理性化,并能够在时间和劳动资源上具有高效性,从而实现了对疾病诊断的临床推理。
Dec, 2023
使用大型语言模型(LLMs)结合人类专家的方法,快速生成医疗文本注释的地面真实标签,从而减少人工注释负担并保持高准确性,为医疗健康领域的定制自然语言处理(NLP)解决方案提供了潜力。
Dec, 2023
使用大型语言模型(LLMs)自动化医疗任务,如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集,用于模拟真实的临床场景,并探索基于思维链(CoT)推理的主观响应生成,以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与,开发了更好的对比学习策略,并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。
Mar, 2024
通过将思路链式提示(CoT)拓展到医学推理领域,我们提出了诊断推理 CoT(DR-CoT)。实证结果表明,通过仅向仅训练于一般文本语料库的大型语言模型提供两个 DR-CoT 实例来指导,诊断准确性提高了 15%。此外,在领域外情景中,该差距达到显著的 18%。我们的研究结果表明,大型语言模型中可以通过适当的提示引出专家知识推理。
Jul, 2023
本文介绍了一种名为 “Low Rank Adaptation” 的 PEFT 方法,并在临床对话摘要任务中展示了其评估结果,这种方法与端到端的调优效果相当。
Jul, 2023
对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究,利用检索增强生成框架对预训练语言模型进行了比较分析,并在零样本设置下评估了它们的推理和解决问题能力。
Apr, 2024
我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力,并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini,我们的领先大型语言模型,在测试集上获得了 0.748 的 F1 分数,在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。
May, 2024
通过 LoRA-based instruction-tuning 来提高日本医学问答任务的性能,在多项选择题的评估中发现其可以部分地将领域特定知识整合到大型语言模型中,较大模型效果更显著,并突出了将英语为中心的模型适应于日本应用的潜力,同时也强调了日本为中心的模型的局限性,这一举措标志着在不依赖外部服务的情况下,医疗机构可以对模型进行精细调整和操作的先驱性努力。
Oct, 2023
本研究旨在重新思考大型语言模型(LLMs)时代的 STS 和 NLI。我们首先评估五个数据集上的临床 / 生物医学 STS 和 NLI 的准确性,然后评估 LLM 预测置信度及其捕捉人类集体意见的能力。我们发现 LLMs 可能能够为特定主题提供个性化描述,或以不同语调生成语义上相似的内容,但目前的 LLMs 很难做出个性化的判断或决策。我们进一步发现,零样本 ChatGPT 在临床和生物医学 STS/NLI 上的准确性与 Fine-tuned BERT-base 相当,但采样存在较大的变异性,集成结果最好。
Sep, 2023
我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力,通过利用 UMLS 知识图谱和先进的大型语言模型,我们提出了一种新的先进方法,通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段,获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务,我们证明了与以往先进技术相比的一致且显著的性能改进(例如,在 MedSTS 上提高了 2 点,在 MedNLI-S 上提高了 2.5 点,在 EHR-Rel-B 上提高了 6.1 点)。除了我们的新型英文生物医学模型外,我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益,开启了生物医学语义表示学习在多种语言中发展的新途径,为全球的生物信息学研究人员提供了宝贵的工具。因此,我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。
Nov, 2023