Oct, 2023

核司问答:核领域语言模型的人工基准测试

TL;DR这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA,它由专家设计的 100 个问题组成,针对语言模型的能力进行了测试。论文还提出了一种新的评估指标,发现现有的最优语言模型在该测试标准上的表现不尽人意,揭示了现有语言模型的科学知识差距。