断言检测大型语言模型上下文学习 LoRA 微调

Jan, 2024

断言检测大型语言模型上下文学习 LoRA 微调

Assertion Detection Large Language Model In-context Learning LoRA Fine-tuning

Yuelyu Ji, Zeshui Yu, Yanshan Wang

TL;DR通过使用基于大量医学数据预训练的大型语言模型（LLMs）和先进的推理技术，我们介绍了一种用于检测医学概念的断言的新方法，该方法在传统方法的基础上进一步优化，并在无结构的临床文本中取得了良好的性能。

Abstract

In this study, we aim to address the task of assertion detection when extracting medical concepts from clinical notes, a key process in clinical natural language processing (NLP). →

assertion detection clinical nlp medical concepts large language models reasoning techniques

发现论文，激发创造

大型语言模型是临床推理器：具备推理意识的诊断框架和提示生成的合理化

借助基于提示的学习，通过 “推理感知” 的诊断框架实现了对临床推理进行理性化，并能够在时间和劳动资源上具有高效性，从而实现了对疾病诊断的临床推理。

Dec, 2023

LLMs 加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

基于有限样本的思维链驱动推理用于开放式医学问题回答的 LLMs

使用大型语言模型（LLMs）自动化医疗任务，如临床记录、信息检索和决策支持。我们提出一种修改的 MedQA-USMLE 数据集，用于模拟真实的临床场景，并探索基于思维链（CoT）推理的主观响应生成，以获取正确的医疗问题答案。我们还利用回报训练机制和人类参与，开发了更好的对比学习策略，并通过增量推理的提示得出贪婪解码方法比其他策略更好的结论。

Mar, 2024

大型语言模型执行诊断推理

通过将思路链式提示（CoT）拓展到医学推理领域，我们提出了诊断推理 CoT（DR-CoT）。实证结果表明，通过仅向仅训练于一般文本语料库的大型语言模型提供两个 DR-CoT 实例来指导，诊断准确性提高了 15%。此外，在领域外情景中，该差距达到显著的 18%。我们的研究结果表明，大型语言模型中可以通过适当的提示引出专家知识推理。

Jul, 2023

SuryaKiran 参加 MEDIQA-Sum 2023: 利用 LoRA 进行临床对话摘要

本文介绍了一种名为 “Low Rank Adaptation” 的 PEFT 方法，并在临床对话摘要任务中展示了其评估结果，这种方法与端到端的调优效果相当。

Jul, 2023

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

SemEval-2024 任务 2 上的 D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了 0.748 的 F1 分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

JMedLoRA：使用指导调整的日语大型语言模型的医疗领域适应

通过 LoRA-based instruction-tuning 来提高日本医学问答任务的性能，在多项选择题的评估中发现其可以部分地将领域特定知识整合到大型语言模型中，较大模型效果更显著，并突出了将英语为中心的模型适应于日本应用的潜力，同时也强调了日本为中心的模型的局限性，这一举措标志着在不依赖外部服务的情况下，医疗机构可以对模型进行精细调整和操作的先驱性努力。

Oct, 2023

大型语言模型中的重新思考：关于 STS 和 NLI

本研究旨在重新思考大型语言模型（LLMs）时代的 STS 和 NLI。我们首先评估五个数据集上的临床 / 生物医学 STS 和 NLI 的准确性，然后评估 LLM 预测置信度及其捕捉人类集体意见的能力。我们发现 LLMs 可能能够为特定主题提供个性化描述，或以不同语调生成语义上相似的内容，但目前的 LLMs 很难做出个性化的判断或决策。我们进一步发现，零样本 ChatGPT 在临床和生物医学 STS/NLI 上的准确性与 Fine-tuned BERT-base 相当，但采样存在较大的变异性，集成结果最好。

Sep, 2023

BioLORD-2023: 融合 LLM 和临床知识图谱洞察的语义文本表示

我们在本研究中探讨了大型语言模型在补充生物医学知识图谱中的潜力，通过利用 UMLS 知识图谱和先进的大型语言模型，我们提出了一种新的先进方法，通过改进的对比学习阶段、新颖的自蒸馏阶段和权重平均化阶段，获得了生物医学概念和句子的高保真度表示。通过对 BioLORD 测试套件的严格评估和多样化的下游任务，我们证明了与以往先进技术相比的一致且显著的性能改进（例如，在 MedSTS 上提高了 2 点，在 MedNLI-S 上提高了 2.5 点，在 EHR-Rel-B 上提高了 6.1 点）。除了我们的新型英文生物医学模型外，我们还蒸馏并发布了与 50 多种语言兼容并在 7 种欧洲语言上进行了微调的多语言模型。我们最新的模型可以使许多临床流程受益，开启了生物医学语义表示学习在多种语言中发展的新途径，为全球的生物信息学研究人员提供了宝贵的工具。因此，我们希望看到 BioLORD-2023 成为未来生物医学应用的宝贵工具。

Nov, 2023