Jan, 2024

MuTox:通用多语种基于音频的毒性数据集和零样本检测器

TL;DR通过创造多语言音频数据集 MuTox,实现了跨多种语言的零射击毒性检测,相比现有的基于文本的训练分类器,MuTox 的 AUC 值提高了超过 1%,语言覆盖范围扩大了 10 倍以上,相比于基于词汇列表的分类器,MuTox 的精确度和召回率提高了约 2.5 倍,这一显著改进突显出 MuTox 在音频毒性检测领域的潜力。