May, 2024

EnviroExam: 大型语言模型的环境科学知识基准测试

TL;DR在环境科学领域,我们提出了 EnviroExam,这是一种综合评估方法,旨在评估大型语言模型在环境科学领域的知识。通过在 31 个开源大型语言模型上进行 0 次和 5 次测试,EnviroExam 揭示了这些模型在环境科学领域中的性能差异,并提供了详细的评估标准。结果表明,在 5 次测试中 61.3% 的模型通过了测试,而在 0 次测试中 48.39% 通过了测试。通过引入变异系数作为指标,我们从多个角度评估了主流开源大型语言模型在环境科学领域的性能,为选择和优化该领域的语言模型提供了有效的标准。未来的研究将涉及使用专门的环境科学教材构建更多领域特定的测试集,以进一步提高评估的准确性和特异性。