Oct, 2023
核司问答:核领域语言模型的人工基准测试
NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain
Anurag Acharya, Sai Munikoti, Aaron Hellinger, Sara Smith, Sridevi Wagle...
TL;DR这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA,它由专家设计的 100 个问题组成,针对语言模型的能力进行了测试。论文还提出了一种新的评估指标,发现现有的最优语言模型在该测试标准上的表现不尽人意,揭示了现有语言模型的科学知识差距。