Feb, 2024

SportQA: 大型语言模型中的体育理解基准

TL;DRSportQA 是一个专门设计用于评估大型语言模型在体育理解方面的新型基准,通过超过 70,000 个多项选择题,涵盖了三个不同难度级别,从基本历史事实到复杂的场景推理任务,综合使用少样本学习和思维链提示对主流大型语言模型进行了全面评估,结果表明,虽然大型语言模型在基本体育知识方面表现出色,但在更复杂的场景推理中表现不佳,与人类专业知识相比较有落后,引入 SportQA 为自然语言处理领域迈出了重要一步,为评估和提升大型语言模型的体育理解能力提供了一个工具。