Dec, 2023

住院医学考试中正确答案的解释性论证提取

TL;DR为了协助医学专家在日常活动中开发所需技术成为目前人工智能研究领域的热门话题。因此,最近提出了许多大型语言模型(LLMs)和自动基准,旨在利用自然语言作为人工智能与人类交互的工具,促进循证医学中的信息提取。本文提出了一个新的数据集,通过与以往研究不同的方式:(i)不仅包括正确答案的解释性论证,还包括解释错误答案不正确的论证;(ii)解释是由医生撰写的,以回答西班牙住院医师考试的问题。我们还利用这个新的基准来设置一项新的提取任务,即识别医生撰写的正确答案的解释。我们的设置的另一个好处是,我们可以利用提取问答范式来自动评估 LLMs 的性能,而不需要昂贵的人工评估。对西班牙语的语言模型进行了全面的实验,结果显示有时多语言模型的性能优于单语模型,甚至超过了已经针对医学领域进行调整的模型。此外,单语模型的结果不一致,表现竞争力的模型实际上更小、更低级。无论怎样,所获得的结果表明我们的新数据集和方法可以有效帮助医学专业人员识别与医学问题相关的循证解释。