BriefGPT.xyz
大模型
Ask
alpha
关键词
searchbench
搜索结果 - 1
导航迷宫:评估和提高 LLMs 处理搜索问题的能力
最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问
→
PDF
17 days ago
Prev
Next