Feb, 2024

CPSDBench:一个用于中国公安领域的大型语言模型评估基准和基线

TL;DR通过构建一个专门针对中国公安领域的评估基准系统(CPSDbench),本研究旨在评估主流大型语言模型(LLMs)在公安任务中的性能,并介绍了一组创新的评估指标,以更准确地衡量 LLMs 在处理公安问题的任务中的效能。通过深入分析和评估,不仅提升了我们对现有模型在解决公安问题上的性能优势和局限性的理解,还为未来开发更准确、定制的面向该领域应用的 LLM 模型提供了参考。