识别涉黑社交媒体通讯时理解词汇偏见
本文通过 Twitter 用户语言风格和社交网络之间的关系,探讨了性别、语言风格和社交网络之间的关系,提出了一种细致的性别分类方法,发现语言风格与社交网络之间的同性别联系紧密相关。
Oct, 2012
本文提出了一种基于社交互动以及欺凌指标种子词典的模型,通过参与者 - 词汇一致性构建目标函数,可以同时发现欺凌者和受害者以及新的欺凌词汇,并通过 Twitter 和 Ask.fm 数据集展示了该方法的有效性。
Jun, 2016
该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响,着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题,并提供解决这三个问题的未来研究建议。
May, 2022
社交媒体上恶劣行为的复苏对刻板观念、对个人和社会群体的仇恨言论以及虚假或扭曲的新闻产生了不良影响。引入基于图卷积数据的方法来更好地捕捉异构数据之间的依赖关系,为未来调节社交媒体平台上的交流提供了希望。我们提出并评估了一种基于图的方法来检测恶劣行为,具有普遍适用性,既不受语言也不受上下文限制。在本研究中,我们在几个 PAN 数据集上进行了实验验证,这些数据集是作为共享任务的一部分提供的,可以讨论所提出解决方案的结果。
Dec, 2023
本文提出了一种基于 NLP 的框架,通过分析话题选择、表达方式、情感和言语作用等四个维度来研究社交媒体中的政治极化。作者通过现有的词汇方法量化这些方面,并提出了利用聚类技术识别分析主题的方法。作者将这些方法应用于对 21 起大规模枪击事件中的 4.4M 条推文进行研究,发现这些事件的讨论在政治上高度极化。结果表明,共和党更关注枪手和事件特定事实,而民主党则更关注受害者和政策变化的呼吁。同时,作者还发现了一些引导言论极化的表达方式,诸如 “基础事实” 以及 “恐怖分子” 和 “疯子” 这两个术语的不同使用。该研究深入了解了语言中的群体分裂表现方法,并提供了计算方法来研究这些现象。
Apr, 2019
本文旨在通过多种语言学、心理学及在线行为等多个方面,更好地了解患有心理障碍的社交媒体用户的特征和差异。研究结果表明,这些用户与正常用户相比,在词汇唯一性、情感表达和月度发布方差等方面存在明显差异。
Feb, 2022
本研究使用机器学习算法对 Twitter 上的滥用行为进行分类,包括网络欺凌和侵略行为,并通过分析用户、网络和文本属性的差异识别出欺负和侵略者。结果表明,该算法能够以超过 90%的准确率和 AUC 分类这些账户。同时,探讨了 Twitter 标记为滥用行为的用户账户的状况,并研究了 Twitter 可能采用的用户封禁机制的效果。
Jul, 2019
本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集,考察了不同的学习模型和额外特征的加入,并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型,F1 得分为 0.805。
Aug, 2018