本文提出了 DRAGNET++,使用推文线程的语义和传播结构来预测推文的仇恨强度,可以识别出即使是微妙的推文也有可能引发仇恨言论,超越了所有最先进的基线。
Jun, 2022
通过使用自我标记的群体进行有组织在线仇恨言论和反言论,研究使用集成学习算法识别有组织在线仇恨言论和反言论,发现自动化方法在评估社交媒体上协调反言论对稳定对话的影响的潜力。
Jun, 2020
利用大型语言模型生成有限制条件的反抗言论,并研究其对在线环境的影响和生成方法的语言特征。
Mar, 2024
社交媒体平台上存在大量的仇恨评论。我们提出了一种用于生成反驳仇恨评论的可控策略的方法,并通过特征控制响应生成,研究了鼓励长期解决方案的可行性。
Jan, 2024
通过对美国新闻的礼貌性手动标注的语料库,测试 Jigsaw Perspective API 是否能够检测到不礼貌的程度,结果表明,Perspective 等模型无法很好地分析新闻中的不礼貌性,需要开发去除新闻中经常提到的词之间的虚假相关性的方法,这样才能更好地解决新闻中的不良言行问题。
Feb, 2021
研究了 Twitter 社交媒体上的政治不文明言辞,利用大数据集和群众智慧标注方法,成功进行了协议检测和语境建模,并探究了不文明言论的普遍性及其传播网络结构特征。
May, 2023
本研究发现 Twitter 的在线仇恨言论与相应的反言论使用了不同的语言和策略,并且经过一些分析和建模,能够对这些用户进行可靠的分类以进一步研究。
Dec, 2018
该研究提出了一种预测在线讨论可能偏离主题的模型,通过对话建模来捕捉话题的动态及其可能的演变,从而在讨论真正变得混乱之前预测可能的混乱。
Sep, 2019
通过心理学和哲学文献,我们提供六种基于心理学的策略来挑战令人讨厌的语言中的刻板印象,并发现人类编写的反言中使用更具体的对抗策略,而机器生成的反言使用的策略通常不太具体且不太令人信服。
Oct, 2023
评估反对仇恨言论的最佳方法,研究将说服模式分为理性、情感和可信度,并评估其在封闭和开放的对话互动中的使用,揭示不同模式在反对仇恨评论和话题层面上的微妙差异以及理性作为说服模式的支持回复更多的潜力。