Feb, 2024

LLM 能否识别有毒性?结构化毒性调查框架与基于语义的度量

TL;DR我们提出了一种基于大型语言模型的自动鲁棒度量方法,用于判断生成文本是否具有毒性,这种方法在衡量毒性方面表现出色,在 F1 分数上比最先进的度量方法提高了 12 个百分点,同时表明上游毒性对下游度量方法有影响。