一个新一代的 Perspective API: 高效多语种基于字符级别的 Transformer
该论文基于 Transformer 语言模型,研究了在社交媒体文本中检测和分类仇恨的问题,并将其固定为三类,同时证明了多语言训练模式的有效性和特定特征对体系结构分类表现的影响。
Jan, 2021
本文描述了 'Moj Masti' 团队提出的系统,使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据,重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务,最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能,并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能,从而将我们放在了排行榜的第一位。
Jan, 2022
本文提出了一种基于对抗样例的攻击方法,针对 Google 和 Jigsaw 的机器学习项目 Perspective 中的有害语言检测系统,通过对高毒性短语的微小修改降低系统对其的有害等级,揭示了这类攻击方法的危害性和有害检测系统的可靠性问题。
Feb, 2017
使用基于 Transformer 模型的算法来检测社交媒体上的仇恨言论,无论语言如意大利语、英语、德语还是孟加拉语,该模型的检测准确率较现有基准和最先进模型提高,其成功率达到了 89%(孟加拉语)、91%(英语和德语)以及 77%(意大利语)
Jan, 2024
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023
提出了一种基于图神经网络和变压器的跨语言灾难相关文本分类系统,该系统可以在有限的监督下工作,并在多种语言和单语言情境下进行分类。在英语、非英语和单语数据集上测试,该系统的加权 F1 值优于现有的最先进模型和多语言 BERT 基线。
Mar, 2022
本研究调查了 17280 名互联网用户对什么构成毒性内容的期望不同,发现那些历史上处于骚扰风险中的群体更可能将 Reddit、Twitter 或 4chan 上的随机评论标记为有毒,而那些亲身经历过骚扰的人也更可能这样做。基于我们的发现,我们展示了目前的一款面向所有用户的毒性分类算法 Perspective API,如何通过个性化模型调整平均提高 86%的准确性。最终,我们强调当前的缺陷和新的设计方向,以提高毒性内容分类器的公平性和效果。
Jun, 2021
本文讨论如何对互联网内容中的 “有害” 语言进行检测,重点介绍了来自 Jigsaw 的最新分数评估工具 PERSPECTIVE,以及我们提出的新基准 SASS,并探讨了 PERSPECTIVE 在 SASS 上表现不足的问题。本文的研究表明,对于已经应用于有害性检测的工具的假设进行质疑十分重要,以预测和防止任何不公平的伤害。
Jan, 2023
本文介绍了 MIDAS-IIITD 团队针对 HASOC 2021 二号子任务提出的系统,用于检测推特上混合使用印地语和英语的谈话中的仇恨言论。我们采用神经网络方法,并利用 transformer 的跨语言嵌入来进行低资源语录下的贴性言论分类,其中最佳表现的系统 [(Indic-BERT, XLM-RoBERTa, 和 Multilingual BERT) 的难度投票集成方法,Macro F1 得分达到 0.7253,排名第一。
Dec, 2021
本篇论文探索了基于 Transformer 的多种机器学习模型,用于探测英语和印度 - 雅利安语中的仇恨言论和冒犯性内容,研究团队 “超级马里奥” 采用 mBERT、XLMR-large、XLMR-base 等多种模型,我们在 Code-Mixed 数据集排名第二(宏平均 F1:0.7107)、在印地语二分类中排名第二(宏平均 F1:0.7797)、在英语四分类中排名第四(宏平均 F1:0.8006),在英语二分类中排名第十二(宏平均 F1:0.6447)。
Nov, 2021