Mar, 2025
MinorBench:一个专为儿童内容风险构建的基准测试
MinorBench: A hand-built benchmark for content-based risks for children
TL;DR本研究针对当前人工智能伦理和安全研究中未能充分解决的儿童内容风险问题,提出了一种新的分类法,并引入了一个开源基准测试MinorBench,以评估大型语言模型对儿童不安全或不当请求的拒绝能力。我们的评估结果展示了不同系统提示下六个重要大型语言模型在儿童安全合规性方面的显著差异,为改进专注于儿童的安全机制提供了切实建议。