FZI-WIM 在 SemEval-2024 任务 2 中的自洽 CoT 用于生物医学领域的复杂 NLI

Jun, 2024

FZI-WIM 在 SemEval-2024 任务 2 中的自洽 CoT 用于生物医学领域的复杂 NLI

FZI-WIM at SemEval-2024 Task 2: Self-Consistent CoT for Complex NLI in Biomedical Domain

Jin Liu, Steffen Thoma

TL;DR该研究论文描述了 FZI-WIM 在 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理中的推理系统。我们的系统利用思维链（CoT）范式来解决这一复杂的推理问题，并通过自洽性进一步提高了 CoT 的性能。与贪婪解码不同，我们对相同提示采样多个推理链，通过多数投票进行最终验证。这个自洽的 CoT 系统取得了 0.80（第 1 名）的基线 F1 分数，0.90（第 3 名）的忠诚度分数和 0.73（第 12 名）的一致性分数。我们公开发布代码和数据，网址见链接。

Abstract

This paper describes the inference system of fzi-wim at the semeval-2024 Task 2: Safe →

inference system fzi-wim semeval-2024 biomedical natural language inference clinical trials

发现论文，激发创造

SelfzCoT：自主提示的零 - shot 语义级到代码级 CoT，以更好地利用 LLMs

本文研究了如何更好地利用 LLMs 和 SelfzCoT，特别是在零射算推理任务上，使用 SelfzCoT 和 MzCoT 取得了显著的性能提升。

May, 2023

基于结构一致性的多模态事实验证: Factify 2 中的 INO

本文介绍了我们在 AAAI2023 的多模态事实验证（FACTIFY）挑战中的方法。我们提出了一个基于结构一致性的多模态事实验证方案来分类虚假新闻，通过随机森林分类器将特征进行合并并获得了 0.8079 的加权平均 F1 分数。

Mar, 2023

IITK 参加 SemEval-2024 任务 2：探索 LLMs 在临床试验中安全生物医学自然语言推理方面的能力

对大型语言模型在处理安全生物医学自然语言推理问题上的鲁棒性和一致性进行了研究，利用检索增强生成框架对预训练语言模型进行了比较分析，并在零样本设置下评估了它们的推理和解决问题能力。

Apr, 2024

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

Apr, 2024

SemEval-2023 任务 7：面向临床试验数据的多证据自然语言推理

这篇论文介绍了 SemEval 2023 任务 7 的结果 -- 临床试验数据的多证据自然语言推断（NLI4CT），包括两个任务：自然语言推断任务和临床试验数据的证据选择任务。

May, 2023

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

医疗错误检测和纠正的思维链 (CoT) 促进策略

我们使用少样本上下文学习（ICL）方法以及链式思维（CoT）和大型语言模型（LLM）中的原因提示，来自动检测和纠正临床笔记中的医疗错误，并通过规则集成方法，在三个子任务中取得了第三、第三和第七名的成绩。

Jun, 2024

CRCL 在 SemEval-2024 任务 2 中的简单提示优化

我们提出了 SemEval 2024 任务 2 挑战的基线，其目标是确定临床试验报告部分和陈述之间的推理关系。我们应用语言模型作为服务（LMaaS）的 LLM Instruct 模型进行提示优化技术，并观察到合成 CoT 提示显著增强了手工制作的提示，与最近的研究结果一致。

May, 2024

2022 Logically 论文：多模式事实验证

本文描述了我们在 2022 AAAI 多模态事实验证（Factify）挑战上的参与系统。我们处理该挑战为多模态蕴含任务，作为多类分类，并提出并探索了两种基线方法，包括集成模型和多模态注意力网络。我们在此工作中测试了不同 SoTA 预训练变换器和视觉模型。最佳模型在排行榜中排名第一，平均 F - 度量值为 0.77。最后，我们强调了未来研究的任务和多模态数据集的挑战。

Dec, 2021

基于大语言模型的逐步自洽数学推理

使用大型语言模型解决复杂的数学推理任务存在挑战，本文提出了一种名为 SSC-CoT 的算法，通过策略选择中间步骤并查询相关领域知识图谱，有效解决了多步推理中的关键问题。作者在 TriMaster100 数据集以及 MATH level 5 数据集上验证了 SSC-CoT 的有效性，取得了显著的性能提升。

Feb, 2024