Dec, 2020

HateCheck:仇恨言论检测模型的功能测试

TL;DR介绍 HateCheck,一个用于针对仇恨言论检测模型的功能测试套件,其中包括 29 个模型功能,为每个功能编写测试用例,并通过结构化注释过程验证其质量。测试表明,近最先进的变换器模型以及两个流行的商业模型存在关键的模型弱点。