Jul, 2023

噪声自训练与数据扩增在冒犯与仇恨言论检测任务中的应用

TL;DR在线社交媒体存在大量冒犯和仇恨言论,为了解决这个问题,需要自动检测这些言论,而手动标注高质量的数据集困难且花费高。本研究探讨了使用自我训练方法和文本数据增强技术来提高训练数据量和模型鲁棒性的效果,在两个冒犯和仇恨言论数据集上进行实验证明了自我训练方法能一致提升性能,但噪声引入的文本数据增强技术会降低性能。