IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

ACLApr, 2024

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials

PDF

Shreyasi Mandal, Ashutosh Modi

TL;DR对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Abstract

large language models (LLMs) have demonstrated state-of-the-art performance in various natural language processing (nlp) tasks across multiple domains, yet they are prone to shortcut learning and factual inconsis

large language models nlp natural language inference breast cancer clinical trial reports

发现论文，激发创造

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

SemEval-2024 任务 2 上的 D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了 0.748 的 F1 分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

Apr, 2024

大型语言模型中的重新思考：关于 STS 和 NLI

本研究旨在重新思考大型语言模型（LLMs）时代的 STS 和 NLI。我们首先评估五个数据集上的临床 / 生物医学 STS 和 NLI 的准确性，然后评估 LLM 预测置信度及其捕捉人类集体意见的能力。我们发现 LLMs 可能能够为特定主题提供个性化描述，或以不同语调生成语义上相似的内容，但目前的 LLMs 很难做出个性化的判断或决策。我们进一步发现，零样本 ChatGPT 在临床和生物医学 STS/NLI 上的准确性与 Fine-tuned BERT-base 相当，但采样存在较大的变异性，集成结果最好。

Sep, 2023

生物医学中的 LLMs：临床命名实体识别研究

该研究探讨了大型语言模型在医学领域中的应用，通过策略性地选择和设计提示语，增强模型在命名实体识别任务中的性能，并结合外部资源通过提示策略填补医学命名实体识别领域中的专业需求与通用语言模型之间的差距，最终提出的方法能够提高大型语言模型在医学命名实体识别任务中的 F1 分数。

Apr, 2024

基于大型语言模型的系统回答实际临床问题

利用大型语言模型构建基于检索增强生成和创新研究的系统能为患者护理提供相关证据，提高医疗决策质量。

Jun, 2024

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023

利用大型语言模型为患者匹配临床试验

研究使用大型语言模型（LLMs）协助患者和转诊医生从广泛的选择中筛选适合的临床试验，并评估了 TrialGPT 在 184 名患者和 18,238 个注释临床试验的实验结果，表明其高准确性和排名排除不合格候选试验的有效性。

Jul, 2023

基于基准生物医学文本处理任务的大规模语言模型全面评估

最近，大型语言模型 (LLM) 在解决各种任务方面展现了令人印象深刻的能力。然而，尽管在各种任务中取得了成功，但以前的研究尚未调查它们在生物医学领域的能力。为此，本文旨在评估 LLMs 在基准生物医学任务中的性能。为此，我们对 26 个数据集中 6 个不同生物医学任务的 4 种流行 LLMs 进行了全面评估。据我们所知，这是第一次在生物医学领域对各种 LLMs 进行广泛评估和比较。有趣的是，基于我们的评估结果我们发现，在具有较小训练集的生物医学数据集中，零次矫正的 LLMs 甚至在效果上超过了当前最先进的生物医学模型。这表明，在大型文本语料库上进行预训练使 LLMs 在生物医学领域具有了相当专业的能力。我们还发现，在所有任务中没有单个 LLM 能够胜过其他 LLMs，不同 LLMs 的性能可能会因任务而异。尽管与在大型训练集上进行精细调整的生物医学模型相比，它们的性能仍然相当差，但我们的研究结果表明，LLMs 在缺乏大规模注释数据的各种生物医学任务中具有潜在的价值工具。

Oct, 2023

CliBench: 临床决策中大型语言模型在诊断、过程、实验室测试和处方方面的多方面评估

将人工智能（AI）与临床诊断过程中的大型语言模型（LLMs）整合，可以显著提高医疗保健的效率和可访问性。本研究通过引入 CliBench—— 一个基于 MIMIC IV 数据集的新型基准测试，评估 LLMs 在临床诊断中的能力，覆盖了多种临床病例的诊断，并包括与临床有关的任务，如治疗程序识别、实验室检查和药物处方等。通过结构化输出本体，CliBench 能够深入了解 LLMs 在不同临床任务上的能力，从而为 LLM 在医疗保健领域的未来发展提供有价值的见解。

Jun, 2024