探索大型语言模型中的注释者偏见对仇恨言论检测的影响
采用大语言模型(LLMs)进行很少标记的训练,结合零样本学习和少样本学习等方法,成功应用于 Hinglish 中的仇恨言论检测和粗细粒度的厌女症分类,研究表明使用 Bidirectional Auto-Regressive Transformers(BART)大模型的零样本分类和使用 Generative Pre-trained Transformer- 3(ChatGPT-3)的少样本提示获得了最佳结果。
Mar, 2024
本文介绍了 AnnoBERT,它是首个将注释者特征和标签文本与基于 Transformer 的模型结合起来以检测仇恨言论的架构。通过融合标签文本来丰富文本表示, 训练过程中,模型将注释者与他们在一条文本中的所选标签相关联, 在评估时,当标签信息不可用时,使用学习到的关联预测参与注释者提供的汇总标签,该方法在检测仇恨言论方面显示出优势,特别是在少数类和注释者存在不一致的边缘情况下的性能提高最大。
Dec, 2022
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
我们研究了替代性的基于变压器的生成型 AI 技术,并开发了一种新的数据标注技术,证明了这些先进方法在应对仇恨言论检测中的比较有效性,强调在敏感环境中需要负责任和谨慎管理的 AI 应用。
May, 2024
我们的研究通过综述和实证分析,揭示大型语言模型在检测恶意言论中的能力和限制,强调它们作为分类器的角色以及发现优秀的模型和他们的特点和训练方法,为理解大型语言模型在关键的恶意言论检测领域的能力做出贡献。
Mar, 2024
通过对社区调查的回应,探讨 GPT-3.5-Turbo 是否能够促进社会偏见标准数据集的开发任务,研究发现 GPT-3.5-Turbo 在此注释任务中表现不佳,产生了无法接受的质量问题,因此推断 GPT-3.5-Turbo 不适合在涉及社会偏见的敏感任务中代替人工标注,并且使用它实际上废除了社区资源偏见标准的许多好处。
May, 2024
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途,探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成的标注进行学习的方法。此外,还提供了 LLM 在数据标注中的方法学分类、包含 LLM 生成标注的模型的学习策略综述,并详细讨论了使用 LLM 进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的 LLMs 进行数据标注,推动该关键领域的未来发展。
Feb, 2024
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
使用大型语言模型和四种不同的提示策略,发现大型语言模型能够有效地检测恶意言论并超过当前基准机器学习模型的性能,提示策略在高效利用大型语言模型的知识库方面起到关键作用。
Jan, 2024