Ex Machina：大规模个人攻击事件分析

Oct, 2016

Ex Machina：大规模个人攻击事件分析

Ex Machina: Personal Attacks Seen at Scale

Ellery Wulczyn, Nithum Thain, Lucas Dixon

TL;DR本研究旨在开发并展示一种集成众包和机器学习的方法来大规模分析个人攻击，我们在英文维基百科应用此方法，生成 100k 以上的高质量标记评论，发现绝大多数个人攻击不是少数恶意用户的结果，也不是允许未注册用户匿名贡献的结果。

Abstract

The damage personal attacks cause to online discourse motivates many platforms to try to curb the phenomenon. However, understanding the prevalence and impact of →

personal attacks online discourse crowdsourcing machine learning wikipedia

发现论文，激发创造

抽取式对抗网络：基于高召回率的社交媒体帖子个人攻击识别解释

通过在现有的精细硬性注意力解释结构上添加对抗性层，可以提高模型对神经文本分类器决策进行高召回解释的能力，并更好地检测社交媒体评论中的个人攻击。

Sep, 2018

在线评论系统中的自动软件伪造攻击和防御

本文针对恶意众包论坛在信息传播中的误导性日益严重的问题，使用一种新的攻击方式 —— 基于深度学习语言模型，自动生成伪造商品和服务的在线评论，比传统人工雇佣方式成本更低、攻击规模更大，且有机制可以逃避检测，通过结合 Yelp 评论网站的实例，研究提出相应的防范措施。

Aug, 2017

Twitter 上对女性记者和政治人物的滥用的大规模众包分析

本文首次报道了人权活动家和机器学习家之间的合作，利用众包研究了 Twitter 上针对女性的在线虐待。通过分析来承认滥用感知的变异性，为其释放给社区研究工作做好准备。在社会影响方面，这项研究为旨在提高公众和决策者意识以及提高社交媒体公司期望标准的媒体活动提供了技术支持。

Jan, 2019

论攻击性语言分类器的鲁棒性

该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析，并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低 50% 以上，同时还能保持修改后文本的可读性和含义。

Mar, 2022

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

在线学习者的攻击：教师和学生分析

本文从控制理论角度研究了在线学习中攻击者可以利用教师 - 学生设置扰动数据标签来操纵学习动态的情境，通过考虑不同的攻击策略并获取简单线性学习者的稳态的分析结果得出，当攻击强度超过关键阈值时，学习者准确度会出现不连续转变的结论，并利用真实数据对具有复杂架构的学习器进行了实证攻击，证实了理论分析中的洞见，表明贪婪攻击特别是在数据流程以小批量形式时可以非常有效。

May, 2023

应对在线辱骂：自动辱骂检测方法综述

本文综述了当前基于自然语言处理（NLP）的滥用检测方法，包括数据集、计算方法、优缺点、挑战和解决方案，并提出伦理和可解释性指南。

Aug, 2019

社会公益的对手：利用对抗攻击保护个人属性隐私

本文提出了一种名为 Adv4SG 的新型文本领域对抗性攻击方法，旨在通过一系列词汇扰动来保护社交媒体上的个人属性隐私，有效地降低基于自然语言处理技术的属性推断攻击的影响。

Jun, 2023

机器学习和情感分析应用于网络订单领域的网络欺凌打击

该研究旨在帮助家长教师会成员更有效地对网络论坛和博客的恶意内容进行监测，以实际应用机器学习等技术进行网络欺凌入口的分类和识别。通过对不同学校的网络平台数据进行的研究，该研究成功训练了机器学习分类器，最终分类准确率达到 88.2% 的平衡 F 分数。

Mar, 2022

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017