Jul, 2024

SAFETY-J:通过批评评估安全性

TL;DR本研究针对当前大型语言模型在内容生成中的安全性评估方法存在的问题,提出了一种新颖的双语生成安全评估器SAFETY-J。该方法通过批评基础的判断和自动化的元评估基准,提供更细致且准确的安全评估,为模型改进和用户信任提供了实质支持,具有重要的潜在影响。