BriefGPT.xyz
Ask
alpha
关键词
benchmark questions
搜索结果 - 2
关于小学算术的大型语言模型性能的仔细检查
大型语言模型在数学推理的许多基准测试上取得了令人瞩目的成功,但人们越来越担心其中的一部分性能实际上是由于数据集污染,而不是真正的推理能力。调查显示,许多模型可能已经部分记忆了基准测试的例子,导致在新的基准测试上准确度下降。
PDF
2 months ago
最近数据库自然语言接口比较调查
本文评估了 24 个最近开发的自然语言数据库接口(NLIs),并将其分类为基于关键字、模式、解析和语法的四组,发现语法为基础的系统是最强大的,但高度依赖其手动设计的规则,同时本文的研究成果对于设计能够回答各种用户问题的 NLIs 至关重要。
PDF
5 years ago
Prev
Next