Mar, 2024

大型语言模型是否能进行分析推理?

TL;DR本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中,大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先,我们发现在我们使用的所有模型中,GPT-4 是最有效的,其次是 Claude-2.1,而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言,我们比较了三种不同的提示技术和一种分而治之的方法,我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段,分别解决每个片段,然后将它们聚合在一起。除了分而治之的方法,我们还探索了思维链(CoT)策略,该策略明显改善了某些模型,尤其是 GPT-4 和 Claude-2.1 的效果,它们的准确率显著提高。然而,对于 GPT-3.5 和 Gemini-Pro 等其他模型,思维链策略则几乎没有或甚至具有负面影响。其次,令我们惊讶的是,尽管在计算 NFL 季度得分方面表现出色,但大多数模型,包括 GPT-4,却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素,并通过大量实验得出结论,即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。