Jun, 2024
探索大型语言模型中的注释者偏见对仇恨言论检测的影响
Investigating Annotator Bias in Large Language Models for Hate Speech
Detection
TL;DR通过分析GPT 3.5和GPT 4o在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注,从而推进这一关键领域的进展提供重要资源。