Aug, 2023

一图抵万言:内容审核软件的形变测试框架

TL;DR社交媒体平台的爆炸性增长在人类社会中带来了沟通和内容传播的革命,但是这些平台越来越被滥用以传播有毒内容,包括仇恨言论、恶意广告和色情,导致对青少年心理健康的严重负面影响。本文提出了一种名为OASIS的元变形测试框架,用于测试内容审查软件的性能,该框架通过从社交媒体应用中收集的真实有毒内容总结出21个变形规则。评估结果显示,OASIS能够达到高达100%的错误发现率,并且通过使用OASIS生成的测试用例对模型进行重训练,能够提高内容审查模型的鲁棒性而不降低性能。