EMNLPNov, 2023

后图灵:LLM 评估地图绘制

TL;DR大语言模型的评估方法学的引入和标准化是一个重要的挑战,本文追溯了 LLM 评估的历史轨迹,从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期,每个时期都有其独特的基准和评估标准。随着 LLM 越来越像人类行为,传统的评估指标,如图灵测试,变得不太可靠了。我们强调了对统一评估体系的迫切需求,考虑到这些模型的更广泛的社会影响。通过对常见评估方法的分析,我们主张在评估方法上进行定性转变,强调标准化和客观标准的重要性。本研究呼吁人工智能社区共同解决 LLM 评估的挑战,确保其可靠性、公正性和社会利益。