BriefGPT.xyz
大模型
Ask
alpha
关键词
knowledge comprehension
搜索结果 - 2
STBench: 大型语言模型在时空分析中的能力评估
该论文通过评估大型语言模型的时空数据理解能力,将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度,并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验,揭示现有语言模型在知识理解和时空推理任务上表现出色,且通过
→
PDF
7 days ago
QuaCer-C: LLM 中知识理解的定量认证
提出了一种新的 QuaCer-C 证明框架来正式认证流行的 LLMs 的知识理解能力,通过高置信度的概率上界,证明 LLMs 在任何相关知识理解提示上给出正确答案的能力与参数数量的增加而提高,Mistral 模型在这个评估中表现不佳。
PDF
4 months ago
Prev
Next