SemEval-2023 任务 7：面向临床试验数据的多证据自然语言推理

May, 2023

SemEval-2023 任务 7：面向临床试验数据的多证据自然语言推理

SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data

PDF

Maël Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers...

TL;DR这篇论文介绍了 SemEval 2023 任务 7 的结果 -- 临床试验数据的多证据自然语言推断（NLI4CT），包括两个任务：自然语言推断任务和临床试验数据的证据选择任务。

Abstract

This paper describes the results of semeval 2023 task 7 -- multi-evidence natural language inference for →

semeval 2023 natural language inference clinical trial data multi-evidence evidence selection

发现论文，激发创造

Sebis 参加 SemEval-2023 第 7 项任务：针对临床试验报告的自然语言推理和证据检索的联合系统

本研究旨在研究开发一个基于 NLP 技术，应用于临床试验数据中的证据检索和自然语言推理任务的系统。该研究介绍了两个系统，一个是将两个任务分别建模的 Pipeline 系统，另一个是同时学习两个任务并采用共享表示和多任务学习方法的 Joint 系统。最终系统采用集成学习方法来结合这两个系统的输出，并提供了结果分析。

Apr, 2023

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

Apr, 2024

NLI4CT: 临床试验报告的多证据自然语言推理

本篇论文介绍了一个新的 NLI4CT 资源，包括两个主要任务：确定自然语言陈述和 CTR 之间的推理关系以及检索支持事实以证明预测关系。该资源暴露了现有 NLI 模型的局限性，为 CTR 推理提供了基础，大大推进了 CTR 的个性化医疗领域的研究。

May, 2023

THiFLY Research at SemEval-2023 Task 7: 基于 CTR 的文本蕴涵和证据检索的多粒度系统

本文介绍了一种基于多层次推理网络 (MGNet) 和 T5-based model SciFive 的多粒度文字蕴含和证据检索系统，并集成了模型集成和联合推理等方法，实现了在 NLI4CT 任务中的最佳表现。

Jun, 2023

DFKI-NLP 参加 SemEval-2024 任务 2：基于数据扰动和 MinMax 训练的鲁棒 LLMs

本研究旨在通过使用大型语言模型（LLMs）在临床试验报告（CTRs）上开发出鲁棒的自然语言推理模型，以应对 SemEval-2024 中的自然语言推理任务。研究采用了最先进的 Mistral 模型及其辅助模型，通过对数据进行数字和首字母缩写扰动的融合训练，实现了对语义变换和数字矛盾干预的处理能力，并对数据集进行了分析以了解 CTRs 的挑战性部分。

May, 2024

证据推断 2.0：更多数据，更好的模型

本文讨论如何利用 NLP 技术快速分析大量的疾病治疗相关的文章，以便于有效地整理出临床试验结果，并希望以此为基础构建出一个比较不同治疗方法的数据库，方便医生进行治疗决策。同时，本文还介绍了一个被称为 Evidence Inference 的公开数据集，该数据集包括了很多描述临床试验的文献，可以用于相关研究。

May, 2020

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

SemEval-2024 任务 2 上的 D-NLP：评估大型语言模型的临床推理能力

我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力，并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini，我们的领先大型语言模型，在测试集上获得了 0.748 的 F1 分数，在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。

May, 2024

临床领域自然语言推理的启示

介绍了 MedNLI 数据集的自然语言推理任务 (NLI)，并提出了两种解决深度神经网络模型在特定领域泛化能力差的方法：利用开放域数据集进行迁移学习和结合外部数据和词汇来源的领域知识。实验结果表明，两种方法均可提高模型性能。

Aug, 2018