关键词question-answering benchmarks
搜索结果 - 2
- 深层网络的不合理无效性
通过对热门的开放式权重预训练 LLMs 进行实证研究,我们发现在移除大部分(最多一半)层之前,其在不同的问答基准测试中仅出现轻微性能下降;因此,层剪枝方法可以在减少计算资源的同时提高推理的内存和延迟,并暗示当前的预训练方法未充分利用网络较深 - EMNLP自主链式思维对于面向开放域多跳推理的大型语言模型
在这篇文章中,我们提出了自主启发式链式思考 (SP-CoT) 自动化框架,用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理,实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法,并能在中间步骤中召