Jun, 2024

当推理遇上信息聚合:体育叙事案例研究

TL;DR综合真实 NBA 篮球数据,我们提出了一种名为 SportsGen 的新方法,用于综合比赛叙述,以严谨评估复杂情景下 LLMs 的推理能力,结果表明 GPT-4o 等大多数模型常因频繁的得分模式而不能准确汇总篮球比分,而开源模型如 Llama-3 则存在显著的得分幻觉,最后我们发现推理的效果受叙述复杂性、信息密度和领域特定术语的影响,突显了分析推理任务的挑战。