Feb, 2024
生成人工智能时代下的大型语言模型评估标准的不足
Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence
TL;DR通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对23个最先进的LLM基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。