评估 GPT-3 生成的针对仇恨性内容审核的说明
利用不同的提示变体、输入信息和在零样本设置中评估大型语言模型,研究探讨在检测讨厌或有害语言时使用解释、上下文和受害群体信息,并发现不仅将目标信息包含在流程中可以显著提高模型性能 (约 20-30%),而且将理由 / 解释加入流程会在不同数据集上相较基线进一步提升性能 (约 10-20%);此外,提供了大型语言模型无法对决策进行分类和解释的错误案例分类,这些薄弱点自动构成这些模型的越狱提示,需要研发产业规模的安全技术来增强模型对抗此类提示。
Oct, 2023
通过设计激励聊天 GPT 生成简明自然语言解释的提示,本文研究了是否可以使用 ChatGPT 提供内含仇恨言论检测的自然语言解释,并通过与人类编写的自然语言解释的比较来评价其质量。我们讨论了 ChatGPT 在隐含性仇恨言论研究中的潜力和局限性。
Feb, 2023
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
研究表明,使用大型语言模型(LLMs)在检测潜在仇恨言论并在发布前对其进行重新表述方面表现优异,进而减少其仇恨程度而不改变原始文本的语义意义。
Oct, 2023
使用深度神经模型自动检测仇恨言论受到标记数据稀缺性的影响,从而导致泛化能力差。为了缓解这个问题,利用生成式人工智能从现有标记示例中生成大量合成仇恨言论序列,并将生成的数据应用于微调大型预训练语言模型,如 BERT、RoBERTa 和 ALBERT。我们研究了相关方法、实验设置和这种方法的评估。此外,我们使用已经适应仇恨检测的预训练语言模型(包括 RoBERTa-Toxicity、HateBERT、HateXplain、ToxDect 和 ToxiGen)在训练集上对生成的数据进行扩充,然后应用和评估其影响。经验证实,这种方法改进了对仇恨言论的泛化能力,提高了不同数据分布下的召回性能。此外,我们还使用 GPT-3.5 模型探索和比较微调后的预训练语言模型在零样本仇恨检测方面的性能。结果表明,尽管 GPT-3.5 模型的泛化效果更好,但对大多数数据集而言,其召回率中等且精确度低。目前尚不清楚是否可以使用类似的文本生成技术来改善 GPT-3.5 及后续模型的敏感性。
Nov, 2023
ChatGPT 的自解释性能与传统方法相媲美,在成本较低的情况下,且具有许多有趣的特性,促使我们重新思考当前在 ChatGPT(类似的 LLM)时代的模型可解释性实践。
Oct, 2023
该研究利用先进的生成语言模型来生成关于文本含有令人厌恶的原因的自然语言解释,并使用启发式词语和目标群体提出了 “解释链” 促进方法,由于提供了准确的目标信息,我们将 NLE 生成的 BLUE 成绩从 44.0 提高到 62.3。我们最后使用各种自动评估方法和人类信息的及清晰度得分来评估生成 NLE 的质量。
Sep, 2022
本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力,包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明,尽管 GPT 取得了显著进展,但仍然面临内在限制,包括对上下文的理解、隐含含义的解释和数据偏见等。该研究对 AI 在处理复杂的、依赖上下文的任务方面的适用性进行了探讨,为未来的发展提供了有价值的见解。
Nov, 2023