SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

Apr, 2024

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials

PDF

Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi

TL;DR本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

Abstract

This paper describes our submission to Task 2 of semeval-2024: Safe Biomedical Natural Language Inference for clinical trials. The Multi-evidence Natural Language Inference for Clinical Trial Data (NLI4CT) consis

semeval-2024 safe biomedical natural language inference clinical trials multi-evidence natural language inference textual entailment

发现论文，激发创造

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

SemEval-2023 任务 7：面向临床试验数据的多证据自然语言推理

这篇论文介绍了 SemEval 2023 任务 7 的结果 -- 临床试验数据的多证据自然语言推断（NLI4CT），包括两个任务：自然语言推断任务和临床试验数据的证据选择任务。

May, 2023

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

Sebis 参加 SemEval-2023 第 7 项任务：针对临床试验报告的自然语言推理和证据检索的联合系统

本研究旨在研究开发一个基于 NLP 技术，应用于临床试验数据中的证据检索和自然语言推理任务的系统。该研究介绍了两个系统，一个是将两个任务分别建模的 Pipeline 系统，另一个是同时学习两个任务并采用共享表示和多任务学习方法的 Joint 系统。最终系统采用集成学习方法来结合这两个系统的输出，并提供了结果分析。

Apr, 2023

THiFLY Research at SemEval-2023 Task 7: 基于 CTR 的文本蕴涵和证据检索的多粒度系统

本文介绍了一种基于多层次推理网络 (MGNet) 和 T5-based model SciFive 的多粒度文字蕴含和证据检索系统，并集成了模型集成和联合推理等方法，实现了在 NLI4CT 任务中的最佳表现。

Jun, 2023

NLI4CT: 临床试验报告的多证据自然语言推理

本篇论文介绍了一个新的 NLI4CT 资源，包括两个主要任务：确定自然语言陈述和 CTR 之间的推理关系以及检索支持事实以证明预测关系。该资源暴露了现有 NLI 模型的局限性，为 CTR 推理提供了基础，大大推进了 CTR 的个性化医疗领域的研究。

May, 2023

在 SemEval-2024 任务 2 中的 DKE 研究：结合数据增强、生成模型和生物医学知识提高推理鲁棒性

通过语义扰动和特定领域词汇替换生成合成示例，并添加数值和定量推理新任务，以改进生物医学临床试验中自然语言推理模型的鲁棒性，结合多任务学习和 DeBERTa 结构，相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。

Apr, 2024

爱丁堡临床自然语言处理在 SemEval-2024 任务 2 中：在没有使用 GPT-4 的情况下优化您的模型

通过合并使用三元组和语言建模目标单独进行微调的适配器，提出了一种用于改进大型语言模型（LLMs）一致性的 PEFT 方法。然而，与 GPT-4 相比，我们的新方法在忠实度和一致性方面没有产生更准确的结果。综合三个度量指标，GPT-4 在比赛中以 0.8328 的分数并列第一。最后，通过与 GPT-4 的污染分析，表明没有测试数据泄露。

Mar, 2024

CRCL 在 SemEval-2024 任务 2 中的简单提示优化

我们提出了 SemEval 2024 任务 2 挑战的基线，其目标是确定临床试验报告部分和陈述之间的推理关系。我们应用语言模型作为服务（LMaaS）的 LLM Instruct 模型进行提示优化技术，并观察到合成 CoT 提示显著增强了手工制作的提示，与最近的研究结果一致。

May, 2024

DFKI-NLP 参加 SemEval-2024 任务 2：基于数据扰动和 MinMax 训练的鲁棒 LLMs

本研究旨在通过使用大型语言模型（LLMs）在临床试验报告（CTRs）上开发出鲁棒的自然语言推理模型，以应对 SemEval-2024 中的自然语言推理任务。研究采用了最先进的 Mistral 模型及其辅助模型，通过对数据进行数字和首字母缩写扰动的融合训练，实现了对语义变换和数字矛盾干预的处理能力，并对数据集进行了分析以了解 CTRs 的挑战性部分。

May, 2024