识别涉黑社交媒体通讯时理解词汇偏见

Apr, 2023

识别涉黑社交媒体通讯时理解词汇偏见

Understanding Lexical Biases when Identifying Gang-related Social Media Communications

Dhiraj Murthy, Constantine Caramanis, Koustav Rudra

TL;DR该研究使用自然语言处理工具有效地识别使用社交媒体发布带有团伙暴力内容的个人，并提出了如何监测和识别这些个人需要帮助的方法，并讨论了使用机器学习模型和大数据方法所需考虑的语言对模型性能和群体歧视的影响。

Abstract

Individuals involved in gang-related activity use mainstream social media including Facebook and Twitter to express taunts and threats as well as grief and memorializing. However, identifying the impact of

发现论文，激发创造

利用词向量增强推特帮派成员个人资料的识别

本文研究了使用词嵌入来识别 Twitter 上的帮派成员，实验结果表明预训练的词嵌入可以提高机器学习算法在社交媒体上训练的准确性。

Oct, 2016

社交媒体中的性别认同与词汇变化

本文通过 Twitter 用户语言风格和社交网络之间的关系，探讨了性别、语言风格和社交网络之间的关系，提出了一种细致的性别分类方法，发现语言风格与社交网络之间的同性别联系紧密相关。

Oct, 2012

利用参与者词汇一致性进行网络欺凌识别

本文提出了一种基于社交互动以及欺凌指标种子词典的模型，通过参与者 - 词汇一致性构建目标函数，可以同时发现欺凌者和受害者以及新的欺凌词汇，并通过 Twitter 和 Ask.fm 数据集展示了该方法的有效性。

Jun, 2016

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

仇恨言论检测的作者画像

本文提出了一种基于社区特征的推特用户恶意言论检测方法，实验结果显示该方法在检测恶意言论方面的效果显著优于现有的方法。

Feb, 2019

在 Twitter 上应用图神经网络进行反社会行为检测

社交媒体上恶劣行为的复苏对刻板观念、对个人和社会群体的仇恨言论以及虚假或扭曲的新闻产生了不良影响。引入基于图卷积数据的方法来更好地捕捉异构数据之间的依赖关系，为未来调节社交媒体平台上的交流提供了希望。我们提出并评估了一种基于图的方法来检测恶劣行为，具有普遍适用性，既不受语言也不受上下文限制。在本研究中，我们在几个 PAN 数据集上进行了实验验证，这些数据集是作为共享任务的一部分提供的，可以讨论所提出解决方案的结果。

Dec, 2023

在社交媒体中分析极化趋势：以 21 起大规模枪击事件中的推文为例

本文提出了一种基于 NLP 的框架，通过分析话题选择、表达方式、情感和言语作用等四个维度来研究社交媒体中的政治极化。作者通过现有的词汇方法量化这些方面，并提出了利用聚类技术识别分析主题的方法。作者将这些方法应用于对 21 起大规模枪击事件中的 4.4M 条推文进行研究，发现这些事件的讨论在政治上高度极化。结果表明，共和党更关注枪手和事件特定事实，而民主党则更关注受害者和政策变化的呼吁。同时，作者还发现了一些引导言论极化的表达方式，诸如 “基础事实” 以及 “恐怖分子” 和 “疯子” 这两个术语的不同使用。该研究深入了解了语言中的群体分裂表现方法，并提供了计算方法来研究这些现象。

Apr, 2019

使用语言和行为视角的在线社交媒体心理障碍分析和可视化

本文旨在通过多种语言学、心理学及在线行为等多个方面，更好地了解患有心理障碍的社交媒体用户的特征和差异。研究结果表明，这些用户与正常用户相比，在词汇唯一性、情感表达和月度发布方差等方面存在明显差异。

Feb, 2022

在社交媒体中检测网络欺凌和网络攻击

本研究使用机器学习算法对 Twitter 上的滥用行为进行分类，包括网络欺凌和侵略行为，并通过分析用户、网络和文本属性的差异识别出欺负和侵略者。结果表明，该算法能够以超过 90％的准确率和 AUC 分类这些账户。同时，探讨了 Twitter 标记为滥用行为的用户账户的状况，并研究了 Twitter 可能采用的用户封禁机制的效果。

Jul, 2019

推特上滥用语言的比较研究

本文研究了在 Twitter 上关于仇恨言论和辱骂的数据集，考察了不同的学习模型和额外特征的加入，并得出了使用双向 GRU 网络结合潜在主题聚类模型的最优模型，F1 得分为 0.805。

Aug, 2018