名字叫法之前:网络争论中人身攻击谬误的动态和触发因素
通过在 CreateDebate 论坛上分析,本研究发现 31.23% 的讨论帖包含攻击性论点,这些论点不仅仅存在于政治话题中,2016 年美国总统选举后也进一步增加,可以对公众意见产生重要影响。建立了一个准确率高达 83% 的偏见检测器后,我们讨论其在社交媒体上的重要性,以便更好地理解和防御攻击性论点产生的风险。
Sep, 2022
本文提供了 ad hominems 的分类方法,并从语料库中提取样本来讨论人类和对话系统在 Twitter 上对特定话题的回应。本文还提出了一种约束解码技术,以减少生成的 ad hominems 数量。结果表明,Marginalized communities 的讨论会导致人类和 DialoGPT 的回应都生成更多的 ad hominems,但是有约束条件的解码技术可以使得生成的对话回应中 ad hominems 更少。
Oct, 2020
本文主要研究如何生成对于事实核查系统具有对抗性的攻击,使其保持着地面事实的意义和语义的有效性,为此采用了 HotFlip 攻击算法与条件语言模型相结合的方法,生成出了一批具有方向性和语义有效性的攻击。
Sep, 2020
社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法,并通过特征控制响应生成,研究了鼓励长期解决方案的可行性。
Jan, 2024
我们提出了一个辩论战术的框架,用于统一争议的各种方面,并注释了来自维基百科讨论页面的 213 个争议,使用变压器模型是预测争议战术的最佳选择。
Dec, 2022
本文提出了一种混合方法,通过结合论述框架、语义学、基于 Transformer 的体系结构和神经图网络来自动评估论证性辩论,并获得了有前途的结果,这为自然语言论证的自动分析开辟了新的研究方向。
Mar, 2022
本文通过对 Hateval 语料库进行人工标注并评估,探讨了大型语言模型中关于憎恨言论的论述元素自动识别的可靠性,发现某些元素相对可靠,对于那些错误率较高的元素,其争议点分析和适当调整后能够更为可靠的识别。
Jun, 2023
本文研究了在线辩论中事实和情感论证风格的特征,使用一组已注释的 “事实” 的和 “感觉” 的辩论论坛文章,提取高度相关的事实和情感论证模式,并应用引导式方法在更大的未注释的论坛文章池中寻找新的模式,最后分析了最具有鉴别能力的模式,以更好地理解事实和情感论证的定义特征。
Sep, 2017
本研究旨在开发并展示一种集成众包和机器学习的方法来大规模分析个人攻击,我们在英文维基百科应用此方法,生成 100k 以上的高质量标记评论,发现绝大多数个人攻击不是少数恶意用户的结果,也不是允许未注册用户匿名贡献的结果。
Oct, 2016
在这项研究中,我们引入了四套可解释的模板,用于常见非正式逻辑谬误的解释,通过我们的模板,在 LOGIC 数据集的 400 个谬误论证中,进行了注释研究,并取得了高的一致性得分(Krippendorf's alpha 为 0.54)和合理的涵盖范围(0.83)。最后,我们进行了一项关于谬误结构的实验,并发现现有的语言模型在检测谬误模板方面存在困难(准确率为 0.47)。为了促进谬误研究,我们公开了我们的数据集和指南。
Jun, 2024