辩论中”的“你懂什么？老人家”逻辑谬误的识别及特征分析

Sep, 2022

辩论中”的“你懂什么？老人家”逻辑谬误的识别及特征分析

"Dummy Grandpa, do you know anything?": Identifying and Characterizing Ad hominem Fallacy Usage in the Wild

Utkarsh Patel, Animesh Mukherjee, Mainack Mondal

TL;DR通过在CreateDebate论坛上分析，本研究发现31.23%的讨论帖包含攻击性论点，这些论点不仅仅存在于政治话题中，2016年美国总统选举后也进一步增加，可以对公众意见产生重要影响。建立了一个准确率高达83%的偏见检测器后，我们讨论其在社交媒体上的重要性，以便更好地理解和防御攻击性论点产生的风险。

Abstract

Today, participating in discussions on online forums is extremely commonplace and these discussions have started rendering a strong influence on the overall opinion of online users. Naturally, twisting the flow of the argument can have a strong impact on the minds of naive users, which

发现论文，激发创造

名字叫法之前：网络争论中人身攻击谬误的动态和触发因素

本文基于大规模标注及语言学分析，运用控制变量法和可解释的神经网络体系结构，研究推托攻击的类型和潜在原因。

Feb, 2018

探究对话回应中的人身攻击

本文提供了 ad hominems 的分类方法，并从语料库中提取样本来讨论人类和对话系统在Twitter上对特定话题的回应。本文还提出了一种约束解码技术，以减少生成的ad hominems数量。结果表明，Marginalized communities 的讨论会导致人类和DialoGPT的回应都生成更多的ad hominems，但是有约束条件的解码技术可以使得生成的对话回应中ad hominems更少。

Oct, 2020

从网络评论的毒性到美国新闻的不文明：谨慎行事

通过对美国新闻的礼貌性手动标注的语料库，测试Jigsaw Perspective API是否能够检测到不礼貌的程度，结果表明，Perspective等模型无法很好地分析新闻中的不礼貌性，需要开发去除新闻中经常提到的词之间的虚假相关性的方法，这样才能更好地解决新闻中的不良言行问题。

Feb, 2021

攻击性言论分类器的替代性攻击和噪声审计

该论文从自动化方法和人工评估者两个重要角度研究社交网络内容管理，通过使用九个机器认证器在92百万条讨论美国政治议题的YouTube评论语料库上进行无声审核，介绍了一份独特的代理违法数据集，研究表明，社交媒体内容的管理具有高度主观性，并引发了关于内容管理实践的重要问题。

Jan, 2023

偏见X：对含有社会隐含偏见的有害内容进行“缓慢思考”辅助管理

引入BiasX框架，通过大规模的众包用户研究，探索使用自由文本解释内容中隐含的社会偏见，以有效增强内容审核设置，我们发现，参与者因正确识别微妙的（非）有毒内容而受益。解释的质量很关键，完美的机器生成解释（+2.4%的有毒难题）帮助不如专业撰写的人类解释（+7.2%）。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。

May, 2023

社交媒体中什么样的仇恨言论的争议方面可以得到可靠识别？

本文通过对Hateval语料库进行人工标注并评估，探讨了大型语言模型中关于憎恨言论的论述元素自动识别的可靠性，发现某些元素相对可靠，对于那些错误率较高的元素，其争议点分析和适当调整后能够更为可靠的识别。

Jun, 2023

关注偏移：在线讨论中寻找什么主义的语用细微差别挖掘

本研究通过引入来自Twitter和YouTube的新数据集，揭示了whataboutism、宣传和‘Tu quoque'谬误之间的重叠和区别，并运用语义学的最新研究成果将'what about'词汇构造与whataboutism区分开来。我们的实验使用关注度权重进行负样本挖掘，取得了显著的进展，在Twitter和YouTube收集的数据中分别比最新技术方法提高了4%和10%。

Feb, 2024

语言模型能否识别有说服力的论点？

大型语言模型（LLMs）的能力不断增长，但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解LLMs的说服能力，我们在Durmus＆Cardie（2018）的数据集上进行了研究，提出了衡量LLMs能力的任务，包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现LLMs在这些任务中能与人类持平，并且合并不同LLMs的预测可以显著提高性能，甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的LLMs的潜在影响和能力做出了关键而持续的贡献。

Mar, 2024

网络评论中的辩论反对策略：分类模式的构建与训练验证

该研究对社交媒体上的有害言论进行了内容分析，发现人们在回应有害言论时采用了多种语言策略，其中声誉攻击是最常见的。该研究为表达反对意见提供了综合视角，并探讨了阻止冒犯性或有问题言论的基层努力。

May, 2024

一些伪善者：少量示例学习和亚型定义用于检测在线气候变化辩论中的伪善指控

本研究针对在线气候变化讨论中伪善指控检测这一被忽视的问题，独立定义了伪善指控检测，并识别出不同相关亚型。通过构建气候伪善指控语料库(CHAC)并使用少量示例学习方法，研究发现，GPT-4o和Llama-3模型在检测伪善指控方面表现出良好的潜力，F1值达到0.68，显著高于以往的0.44，表明该研究为在线气候辩论中的伪善指控大规模分析提供了新的视角和基础。

Sep, 2024