May, 2024

EconLogicQA:一个用于评估经济时序推理的大语言模型的问答基准测试

TL;DREconLogicQA 是一个旨在评估大型语言模型(LLMs)在经济学、商业和供应链管理领域中的顺序推理能力的严格基准。通过衍生自经济文章的多事件场景,EconLogicQA 要求模型区分和排序多个相互关联的事件,捕捉经济逻辑的复杂性。通过全面评估,我们展示了 EconLogicQA 在经济环境中导航顺序复杂性方面的有效性,并提供了对各种领先的 LLMs 在经济环境中顺序推理潜力的全面观点。我们的基准数据集可在此 URL 获取。