Nov, 2023
腾讯LLMEval:人类对齐的LLMs的实际能力的层次评估
TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs
TL;DR通过构建一个综合的人工评估框架,我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法,同时设计了详细的评估标准和过程,释放了一个包含不同难度水平和知识领域的测试集,并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法,旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。