BriefGPT.xyz
Ask
alpha
关键词
llm benchmarking
搜索结果 - 2
TruthEval:评估 LLM 的真实性和可靠性的数据集
通过手动编制敏感主题的具有已知真实值的具有挑战性陈述的 LLM 基准测试集 TruthEval,我们提供了一个区分 LLMs 能力与其随机性的策划集合,我们对此数据集进行了初步分析发现 LLMs 在简单任务中失败的几个情况,显示它们理解简单
→
PDF
a month ago
大型语言模型的心理测量辅助基准测试:数学能力的案例研究
借鉴心理测量学的知识,提出了一种新的基于心理测量的大型(多模态)语言模型(LLMs)评测框架 - PATCH。通过使用该框架,测量了 GPT-4 和 Gemini-Pro-Vision 在 8 年级数学中的熟练程度,并且与 56 个人口进行
→
PDF
3 months ago
Prev
Next