CRCL 在 SemEval-2024 任务 2 中的简单提示优化
本论文通过在临床试验报告中应用自然语言推理模型进行的一项多证据文本蕴含(NLI)任务,描述了基于微调和合并遮蔽语言模型以及使用模板的大型语言模型(如类比思维链和对比类比思维链)的两种不同方法的测试。使用辅助 Flan-T5 large 模型在 2 次迭代的情况下,实现了最佳系统,得分为 0.57 F1,0.64 忠实度和 0.56 一致性。
Apr, 2024
这篇论文介绍了 SemEval 2023 任务 7 的结果 -- 临床试验数据的多证据自然语言推断(NLI4CT),包括两个任务:自然语言推断任务和临床试验数据的证据选择任务。
May, 2023
提出 SemEval-2024 任务 2:用于临床试验的安全生物医学自然语言推理,旨在挑战大语言模型在干预和因果推理任务方面的能力,并提供方法和结果的全面评估,以促进医疗保健领域中自然语言推理模型的鲁棒性和适用性,确保在临床决策中更安全可靠的 AI 辅助。
Apr, 2024
本文介绍了我们用于 SemEval Task4 的前两个子任务的系统,通过使用提示模板进行输入重构策略来澄清判断意图和注入对比信息以进行选择,并将子任务形式化为多选题形式来构建输入,然后,问题回答的最终预测被视为子任务的结果。实验结果表明,与基线系统相比,我们的方法在第一个和第二个子任务的官方测试集上均取得了显着的性能,我们的方法以 96.4 和 94.3 的准确率安全地排在前三名。
Jul, 2020
本文综合系统地对五个临床自然语言处理任务(临床意义消除、生物医学证据提取、共指消解、药物状态提取和药物属性提取)的提示工程进行了实验研究,评估了多种提示类型在三种先进的大型语言模型(GPT-3.5、BARD 和 LLAMA2)上的性能,并提出了对临床 NLP 领域提示工程的新见解和指南。
Sep, 2023
手动注释计算社会科学任务的数据成本高昂、耗时且情感压力大。最近的研究表明,零 - shot 设置下,语言模型可以执行此类注释任务,但我们对于提示设计如何影响语言模型的遵从和准确性了解甚少。我们进行了大规模的多提示实验,以测试模型选择(ChatGPT、PaLM2 和 Falcon7b)和提示设计特征(定义包含、输出类型、解释和提示长度)对 LLM 生成注释的遵从和准确性的影响,针对四个计算社会科学任务(毒性、情感、谣言态度和新闻框架)。我们的结果表明,LLM 的遵从和准确性高度依赖于提示。例如,提示使用数值得分而不是标签会降低所有 LLM 的遵从和准确性。整体而言,最佳的提示设置取决于任务,微小的提示更改会导致生成标签分布上的巨大变化。通过显示提示设计对 LLM 生成注释的质量和分布有显著影响,本研究作为研究人员和从业者的警示和实践指南。
Jun, 2024
本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中,通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明,该方法在 Spider 数据集上超出了最先进系统 2.5 个点,超出了最佳微调系统 5.1 个点。
May, 2023
本研究旨在研究开发一个基于 NLP 技术,应用于临床试验数据中的证据检索和自然语言推理任务的系统。该研究介绍了两个系统,一个是将两个任务分别建模的 Pipeline 系统,另一个是同时学习两个任务并采用共享表示和多任务学习方法的 Joint 系统。最终系统采用集成学习方法来结合这两个系统的输出,并提供了结果分析。
Apr, 2023
评估大型语言模型在医疗错误识别和修正方面的能力,提出了多种提示策略来显著提高模型的修正能力,并讨论了错误句子位置、提示角色和选项位置对模型准确性的影响。该研究表明,尽管具有潜力,但是否准备好将大型语言模型应用于真实临床环境仍然需要进一步研究。
May, 2024
本文描述了 IUST NLP 实验室在 Eval4NLP 2023 会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了 LLMs 在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了 0.477。代码和结果可以在 GitHub 上公开获取。
Nov, 2023