本研究旨在有效收集应对仇恨言论的响应,利用大规模的无监督语言模型生成银标注数据,并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。
Apr, 2020
本文提出了一种新型的人机交互数据收集方法,其中一个生成式语言模型通过使用其自身数据生成新的训练样本,并由专家审查 / 编辑来迭代地改善。结果表明,该方法可扩展并促进多样化、新颖及高效收集数据。生成的数据集是目前唯一面向专家的多重 HS/CN 目标数据集。
Jul, 2021
本文介绍了一种混合方法收集在线仇恨言论和非政府组织的多轮对话数据,从而帮助训练自然语言生成模型以自动化反击网络仇恨言论。
Nov, 2022
该研究描述了多个 NGO 的百余名熟练操作员联合创建的第一个大尺度的恶意言论及对抗文本对的多语种数据集,并提供了关于数据扩增、恶意类型和回应类型等额外的注释。
Oct, 2019
介绍了使用注意力正则化技术改进预训练变换器语言模型(PLMs)生成对抗叙事的能力,实验表明,正则化的模型在大多数情况下能够产生比现有方法更好的对抗叙事,尤其是在训练数据中不存在仇恨目标的情况下。
Sep, 2023
自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法,但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行,因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架,以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中,我们提出了:i) 从话语框架中导出的对抗言论分类法,ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架,我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程,我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集,以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释,并提供了重新表述的对应项,以消除冒犯和第一人称参考。我们证明,通过使用我们的数据集和框架,大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估,我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。
Nov, 2023
使用检索增强的无监督式反叙事生成方法,从外部统计数据中扩展反知识,并将其映射到反叙事,以应对自动生成反叙事所面临的限制。具有出色的性能表现和更强的泛化能力。
Oct, 2023
通过新的评估框架,我们提出了一种新颖的方法,让 LLMs 为生成的对抗叙事候选者提供评分和反馈,从而弥补以往评估方法的局限性,并显示出作为多方面、无参考和可解释的对抗叙事评估者的潜力。
Feb, 2024
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
本文为便于自动对抗话语生成而对 Hateval 恶意言论推文语料库进行了扩充,不仅将手写对抗话语与推文关联,还基于 Wagemann 的论证信息对推文进行了注释,在自动检测及人工检测方面都取得了令人满意的结果。
Aug, 2022