CRCL 在 SemEval-2024 任务 2 中的简单提示优化

May, 2024

CRCL 在 SemEval-2024 任务 2 中的简单提示优化

CRCL at SemEval-2024 Task 2: Simple prompt optimizations

Clément Brutti-Mairesse, Loïc Verlingue

TL;DR我们提出了 SemEval 2024 任务 2 挑战的基线，其目标是确定临床试验报告部分和陈述之间的推理关系。我们应用语言模型作为服务（LMaaS）的 LLM Instruct 模型进行提示优化技术，并观察到合成 CoT 提示显著增强了手工制作的提示，与最近的研究结果一致。

Abstract

We present a baseline for the semeval 2024 task 2 challenge, whose objective is to ascertain the inference relationship between pairs of clinical trial report sections and statements. We apply →

semeval 2024 clinical trial report inference relationship prompt optimization techniques llm instruct models

发现论文，激发创造

SEME 在 SemEval-2024 任务 2 中：对临床试验的自然语言推理进行屏蔽和生成式语言模型的比较

本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含（NLI）任务，描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型（如类比思维链和对比类比思维链）的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下，实现了最佳系统，得分为 0.57 F1，0.64 忠实度和 0.56 一致性。

Apr, 2024

SemEval-2023 任务 7：面向临床试验数据的多证据自然语言推理

这篇论文介绍了 SemEval 2023 任务 7 的结果 -- 临床试验数据的多证据自然语言推断（NLI4CT），包括两个任务：自然语言推断任务和临床试验数据的证据选择任务。

May, 2023

SemEval-2024 任务 2：临床试验安全的生物医学自然语言推理

提出 SemEval-2024 任务 2：用于临床试验的安全生物医学自然语言推理，旨在挑战大语言模型在干预和因果推理任务方面的能力，并提供方法和结果的全面评估，以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性，确保在临床决策中更安全可靠的 AI 辅助。

Apr, 2024

使用提示模板重构策略指导 PLM 进行 ComVE 的 SemEval-2020 任务 4 中的 IIE-NLP-NUT

本文介绍了我们用于 SemEval Task4 的前两个子任务的系统，通过使用提示模板进行输入重构策略来澄清判断意图和注入对比信息以进行选择，并将子任务形式化为多选题形式来构建输入，然后，问题回答的最终预测被视为子任务的结果。实验结果表明，与基线系统相比，我们的方法在第一个和第二个子任务的官方测试集上均取得了显着的性能，我们的方法以 96.4 和 94.3 的准确率安全地排在前三名。

Jul, 2020

零轉化臨床自然語言處理中大型語言模型的提示策略實證評估

本文综合系统地对五个临床自然语言处理任务（临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取）的提示工程进行了实验研究，评估了多种提示类型在三种先进的大型语言模型（GPT-3.5、BARD 和 LLAMA2）上的性能，并提出了对临床 NLP 领域提示工程的新见解和指南。

Sep, 2023

计算社会科学任务中的提示设计对结果具有重要影响，但其方式难以预测

手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明，零 - shot 设置下，语言模型可以执行此类注释任务，但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验，以测试模型选择（ChatGPT、PaLM2 和 Falcon7b）和提示设计特征（定义包含、输出类型、解释和提示长度）对 LLM 生成注释的遵从和准确性的影响，针对四个计算社会科学任务（毒性、情感、谣言态度和新闻框架）。我们的结果表明，LLM 的遵从和准确性高度依赖于提示。例如，提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言，最佳的提示设置取决于任务，微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响，本研究作为研究人员和从业者的警示和实践指南。

Jun, 2024

增强大型语言模型的少样本文本到 SQL 能力：关于提示设计策略的研究

本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中，通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明，该方法在 Spider 数据集上超出了最先进系统 2.5 个点，超出了最佳微调系统 5.1 个点。

May, 2023

Sebis 参加 SemEval-2023 第 7 项任务：针对临床试验报告的自然语言推理和证据检索的联合系统

本研究旨在研究开发一个基于 NLP 技术，应用于临床试验数据中的证据检索和自然语言推理任务的系统。该研究介绍了两个系统，一个是将两个任务分别建模的 Pipeline 系统，另一个是同时学习两个任务并采用共享表示和多任务学习方法的 Joint 系统。最终系统采用集成学习方法来结合这两个系统的输出，并提供了结果分析。

Apr, 2023

MEDIQA-CORR 2024 上的爱丁堡临床自然语言处理：利用提示指导大型语言模型

评估大型语言模型在医疗错误识别和修正方面的能力，提出了多种提示策略来显著提高模型的修正能力，并讨论了错误句子位置、提示角色和选项位置对模型准确性的影响。该研究表明，尽管具有潜力，但是否准备好将大型语言模型应用于真实临床环境仍然需要进一步研究。

May, 2024

探索使用提示的大型语言模型作为可解释的度量

本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略，该策略使用了大型语言模型（LLMs）来评估总结任务，并通过实验证明了 LLMs 在自然语言处理（NLP）中，特别是在总结领域具有良好的潜力。在这些实验中，使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。

Nov, 2023