Feb, 2024
相同任务,更多令牌:输入长度对大型语言模型推理性能的影响
Same Task, More Tokens: the Impact of Input Length on the Reasoning
Performance of Large Language Models
TL;DR本研究探讨了扩展输入长度对大型语言模型 (LLMs) 能力的影响。通过引入一种新型问答推理框架,重点评估输入长度对性能的影响。结果显示,在远低于技术最大值的输入长度时,LLMs 的推理性能显著下降,而且这种降级趋势在数据集的每个版本中都存在,尽管强度有所不同。此外,研究还发现传统的困惑度度量与 LLMS 在长输入推理任务中的性能无关。通过分析结果,我们鉴定了失效模式,这些模式对未来的研究可能具有指导意义,并有望解决 LLMS 中观察到的限制。