无法辨别使用和提及的 NLP 系统对反言进行审查，但教授这种区别有助于

ACLApr, 2024

无法辨别使用和提及的 NLP 系统对反言进行审查，但教授这种区别有助于

NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps

Kristina Gligoric, Myra Cheng, Lucia Zheng, Esin Durmus, Dan Jurafsky

TL;DR使用提及区分是 NLP 和 CSS 领域中的重要问题，本研究提出了减轻这一问题的方法，并指出其对应用场景的重要性。

Abstract

The use of words to convey speaker's intent is traditionally distinguished from the `mention' of words for quoting what someone said, or pointing out properties of a word. Here we show that computationally modeling this use-mention distinction is crucial for dealing with →

use-mention distinction counterspeech language models misinformation hate speech detection

发现论文，激发创造

应对仇恨言论的自然语言处理：概述和操作指南

近年来，反言论已经成为打击网络仇恨的最有希望的策略之一。这些非升级回应在保护用户言论自由的同时，可以在减少在线和离线暴力方面产生明显影响。本文提供了关于进行反言论研究的指南，通过详细的实例描述了相关步骤，并提供了从自然语言处理研究的最佳实践。最后，我们讨论了自然语言处理中反言论研究的挑战和未来方向。

Mar, 2024

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

社交媒体上的仇恨言论反制：仇恨言论和反言论的大规模分类

通过使用自我标记的群体进行有组织在线仇恨言论和反言论，研究使用集成学习算法识别有组织在线仇恨言论和反言论，发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。

Jun, 2020

不可恶言相向：反击网络仇恨言论

本文针对社交媒体上的仇恨言论问题，提出了一种基于对抗性言论的解决方案。作者构建并发布了首个基于 YouTube 评论的对抗性言论数据集，对数据集展开了详尽的分析，并最终训练出了能够在视频评论中自动检测对抗性言论的机器学习模型。

Aug, 2018

探索网络伤害缓解的逆行言论

用计算机科学的方法对社会科学领域中的对抗性言论研究进行系统性回顾，比较方法和结果，以填补目前在对抗性言论效用方面缺乏系统性理解的空白，从而识别出两个领域的有前途的未来方向。

Jul, 2023

仇恨言论和对话语境相关的反言检测

研究表明，上下文对于识别网络仇恨言论和反对言论至关重要。作者利用 Reddit 评论创建了一个上下文感知数据集，使用人类判断和神经网络实验结果表明，考虑上下文可以使结果显著提升。

Jun, 2022

走出回音室：检测对抗性辩论言论

本文研究如何检测能够有效反驳特定论点而非只是特定立场的文章，以解决社交媒体时代如何应对信息封锁和假新闻的问题。针对辩论演讲，给定一个演讲稿，我们的目标是从一组与其立场相反的演讲中找出直接反驳它的演讲。通过研究此问题，我们提供了一个包含 3,685 个数据样本（英文）的数据集，并探讨了几种算法。尽管某些算法表现成功，但都未达到人类专家的水平，这表明此方向存在进一步研究的空间。

May, 2020

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

DisCGen: 基于话语的抵制言论生成框架

自动对抗言论生成可以帮助社交媒体上打击仇恨内容的有效方法，但生成的对抗言论只有在基于话题、受众和敏感性的背景下才能可行，因为这些因素影响其有效性和适当性。我们提出了一个基于话语理论的新框架，以研究将对抗言论与仇恨评论连接起来的推理链接。在这个框架中，我们提出了：i) 从话语框架中导出的对抗言论分类法，ii) 基于话语理论的上下文化对抗言论生成策略。为了构建和验证这个框架，我们提供了一个从 Reddit 收集实际数据集的过程。利用这个过程，我们手动注释了一个由 3.9k 个 Reddit 评论对组成的数据集，以确定其中是否存在仇恨言论和对抗言论。我们对这些对进行了注释，并提供了重新表述的对应项，以消除冒犯和第一人称参考。我们证明，通过使用我们的数据集和框架，大型语言模型可以生成基于话语理论的上下文化对抗言论。根据我们的人工评估，我们的方法可以作为应对话语不可知模型的重大故障的一种保护措施。

Nov, 2023

藏在袖子里的反驳言论！意图分布学习和持久融合用于基于意图的反驳言论生成

研究利用多种具有不同意图的对话反驳手段作为对抗仇恨言论的方法，提出了一个含有五种不同意图的 IntentCONAN 数据集，同时利用 QUARC 模型进行反驳手段的生成，并证明该模型相比其他基线模型在评估指标上性能平均提高了 10％以上。

May, 2023