BriefGPT.xyz
Ask
alpha
关键词
nuclearqa benchmark
搜索结果 - 1
核司问答:核领域语言模型的人工基准测试
这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA,它由专家设计的 100 个问题组成,针对语言模型的能力进行了测试。论文还提出了一种新的评估指标,发现现有的最优语言模型在该测试标准上的表现不尽人意,揭示了现
→
PDF
9 months ago
Prev
Next