辩论中”的“你懂什么?老人家”逻辑谬误的识别及特征分析
本文提供了 ad hominems 的分类方法,并从语料库中提取样本来讨论人类和对话系统在Twitter上对特定话题的回应。本文还提出了一种约束解码技术,以减少生成的ad hominems数量。结果表明,Marginalized communities 的讨论会导致人类和DialoGPT的回应都生成更多的ad hominems,但是有约束条件的解码技术可以使得生成的对话回应中ad hominems更少。
Oct, 2020
通过对美国新闻的礼貌性手动标注的语料库,测试Jigsaw Perspective API是否能够检测到不礼貌的程度,结果表明,Perspective等模型无法很好地分析新闻中的不礼貌性,需要开发去除新闻中经常提到的词之间的虚假相关性的方法,这样才能更好地解决新闻中的不良言行问题。
Feb, 2021
该论文从自动化方法和人工评估者两个重要角度研究社交网络内容管理,通过使用九个机器认证器在92百万条讨论美国政治议题的YouTube评论语料库上进行无声审核,介绍了一份独特的代理违法数据集,研究表明,社交媒体内容的管理具有高度主观性,并引发了关于内容管理实践的重要问题。
Jan, 2023
引入BiasX框架,通过大规模的众包用户研究,探索使用自由文本解释内容中隐含的社会偏见,以有效增强内容审核设置,我们发现,参与者因正确识别微妙的(非)有毒内容而受益。解释的质量很关键,完美的机器生成解释(+2.4%的有毒难题)帮助不如专业撰写的人类解释(+7.2%)。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。
May, 2023
本文通过对Hateval语料库进行人工标注并评估,探讨了大型语言模型中关于憎恨言论的论述元素自动识别的可靠性,发现某些元素相对可靠,对于那些错误率较高的元素,其争议点分析和适当调整后能够更为可靠的识别。
Jun, 2023
本研究通过引入来自Twitter和YouTube的新数据集,揭示了whataboutism、宣传和‘Tu quoque'谬误之间的重叠和区别,并运用语义学的最新研究成果将'what about'词汇构造与whataboutism区分开来。我们的实验使用关注度权重进行负样本挖掘,取得了显著的进展,在Twitter和YouTube收集的数据中分别比最新技术方法提高了4%和10%。
Feb, 2024
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解LLMs的说服能力,我们在Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量LLMs能力的任务,包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现LLMs在这些任务中能与人类持平,并且合并不同LLMs的预测可以显著提高性能,甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的LLMs的潜在影响和能力做出了关键而持续的贡献。
Mar, 2024
该研究对社交媒体上的有害言论进行了内容分析,发现人们在回应有害言论时采用了多种语言策略,其中声誉攻击是最常见的。该研究为表达反对意见提供了综合视角,并探讨了阻止冒犯性或有问题言论的基层努力。
May, 2024
本研究针对在线气候变化讨论中伪善指控检测这一被忽视的问题,独立定义了伪善指控检测,并识别出不同相关亚型。通过构建气候伪善指控语料库(CHAC)并使用少量示例学习方法,研究发现,GPT-4o和Llama-3模型在检测伪善指控方面表现出良好的潜力,F1值达到0.68,显著高于以往的0.44,表明该研究为在线气候辩论中的伪善指控大规模分析提供了新的视角和基础。
Sep, 2024