Jun, 2024

CHiSafetyBench:一份用于大型语言模型的中文分层安全基准评测

TL;DR该论文介绍了 CHiSafetyBench,这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准,作者验证了自动评估作为人工评估的替代的可行性,并对主流的中文语言模型进行了全面的自动安全评估。实验表明,不同模型在各个安全领域的性能存在差异,指示了所有模型在中国的安全能力方面有相当大的改进潜力。