May, 2024

SemEval-2024 任务 2 上的 D-NLP:评估大型语言模型的临床推理能力

TL;DR我们评估了在临床试验报告数据集上使用医学领域的热门开源和闭源大型语言模型的自然语言推理能力,并分析了它们在具有医学缩写和数量 - 定量推理要求的挑战性实例上的表现。Gemini,我们的领先大型语言模型,在测试集上获得了 0.748 的 F1 分数,在任务排行榜上位列第九。我们的工作是第一种在医学领域内全面检验大型语言模型的推理能力的工作。