使用两阶段半监督方法检测开放领域对话中的攻击性内容

NIPSNov, 2018

使用两阶段半监督方法检测开放领域对话中的攻击性内容

Detecting Offensive Content in Open-domain Conversations using Two Stage Semi-supervision

Chandra Khatri, Behnam Hedayatnia, Rahul Goel, Anushree Venkatesh, Raefer Gabriel...

TL;DR本文提出了一个两步骤的半监督方法来从公共资源中引导大规模数据，以自动检测敏感语言，展示该方法在公共标注数据集和所提出的半监督数据集上显示出的优异表现和泛化能力，无需为敏感类别提供显式标签，从而在 Twitter 和 Toxic Wikipedia test 数据上实现了高达 95.5％的 F1 得分。

Abstract

As open-ended human-chatbot interaction becomes commonplace, sensitive content detection gains importance. In this work, we propose a two stage semi-supervised approach to bootstrap large-scale data for automatic

sensitive content detection semi-supervised approach large-scale dataset chatbot interaction hate speech

发现论文，激发创造

通过大型语言模型的知识蒸馏促进开放领域对话系统中的淫秽文本检测

使用大型语言模型的知识蒸馏技术，开发具有实用性和成本效益的色情文本检测器，分析人机交互对话中的色情内容以及开发用于监测对话的数据集和文本分类器。

Mar, 2024

通过知识蒸馏促进开放域对话系统中 NSFW 文本的检测

研究聚焦于 NSFW 内容检测在开放域对话系统中带来的副作用，介绍了一个对话监控数据集 CensorChat，利用 GPT-4 和 ChatGPT 进行知识蒸馏，开发了一种成本效益高的 NSFW 内容检测方法，强调了在数字对话中 AI 系统优先考虑用户安全和福祉，同时尊重言论自由。

Sep, 2023

当涉及言语问题时：重新审视标记敏感内容的方法

许多资源匮乏的语言需要具有高质量的特定任务数据集，例如辱骂语言检测、虚假消息或错误信息识别。本文从乌克兰推文的伪标记敏感数据的方法出发，重新审视了使用该方法的过程，重点关注俄乌战争相关主题。通过实验，突出了数据标注的三个主要阶段，并强调了机器标注过程中的主要障碍。最终，我们对获得的数据进行了基础统计分析，并对用于伪标记的模型进行了评估，提供了进一步指导，以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。

Nov, 2023

一种基于强化学习的聊天机器人攻击性语义审查系统

本研究提出了一种基于强化学习的语义审查聊天机器人系统，由攻击性语义审查模型和清洗模型两部分组成。通过集成一次性学习方法，加快了语义净化速度，同时减少了对回复质量的影响，实验结果表明，本方案降低了聊天模型生成攻击性回复的概率，并有效地减缓了 BLEU 值下降。

Jul, 2022

利用弱监督的双路径自举方法识别显式和隐式仇恨言论

使用弱监督的双路径自举方法，基于大规模无标注数据建立在线仇恨言论检测系统，有效解决了标注偏见和标注成本高昂等问题。在选举前、后和当天收集的大量推文上应用该模型，揭示了煽动性语言的动机和模式。

Oct, 2017

異質環境下的辱罵語言檢測：數據集收集與監督注意力的作用

本文提出了一种注重异质性的辱骂评论的检测算法，使用带监督的注意机制和多任务学习来提高性能，并在一个包含 11000 条评论的 YouTube 数据集上进行了实验比较。

May, 2021

数据饮食下的性别主义检测

我们展示了如何利用影响分数来估计在训练模型和设计剪枝策略时数据点的重要性，应用于性别歧视检测案例中，我们评估了不同剪枝策略下训练的模型在三个领域外数据集上的性能，并发现大部分实例可以删除而不会显著降低性能，但我们还发现之前在自然语言推理任务中成功的剪枝数据策略不适用于检测有害内容，反而进一步加剧了已经普遍存在的类别不平衡问题，导致最坏情况下恶意类别完全消失。

Jun, 2024

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

推特恶意语言检测的一步和两步分类

针对社交媒体中滥用语言的检测问题，我们提出了一种两步分类的方法，并将其与一步多分类检测性别主义和种族主义语言的方法进行了比较。在英语 Twitter 语料库上的实验结果表明，我们的方法比使用逻辑回归的两步法和使用 HybridCNN 的一步法分别提高了 0.827 和 0.824 的 F-measure 性能指标。

Jun, 2017

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023