Aug, 2024

评估大型语言模型在可持续发展目标映射中的性能

TL;DR本研究针对大型语言模型(LLMs)在可持续发展目标(SDG)映射任务中的表现进行了比较,填补了对多种开源模型在这一领域表现的评估空白。研究采用多种评估指标(如F1分数、精准率和召回率)对模型性能进行了深入分析,结果显示LLaMA 2和Gemma仍需显著改进,而其他模型表现差异不大。此项研究为选择适合的语言模型提供了实证依据,促进了SDG映射的进展。