Jun, 2024

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

TL;DR通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见,本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析,并通过对标注数据的仔细审查,全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注,从而推进这一关键领域的进展提供重要资源。