Apr, 2024

RTP-LX: 多语言情境下,LLM 能否评估毒性?

TL;DR通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX,我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力,并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难,特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。