混合代码社交媒体文本中跨语言滥用识别

Mar, 2022

混合代码社交媒体文本中跨语言滥用识别

Multilingual Abusiveness Identification on Code-Mixed Social Media Text

Ekagra Ranjan, Naman Poddar

TL;DR本文提出了一种针对多语言 Moj 数据集的辱骂识别方法，解决了非英语社交媒体内容中常见的混合码，音译和使用不同文字的额外挑战。

Abstract

social media platforms have been seeing adoption and growth in their usage over time. This growth has been further accelerated with the lockdown in the past year when people's interaction, conversation, and expression were limited physically. It is becoming increasingly important to ke

social media abusive content non-english multilingual indic languages

发现论文，激发创造

多语种社交媒体内容的毒性检测

本文描述了 'Moj Masti' 团队提出的系统，使用了 ShareChat/Moj 在 IIIT-D 多语言恶性评论识别挑战中提供的数据，重点介绍了如何利用多语言 Transformer 预训练和微调模型来处理混合代码 / 交替代码分类任务，最终在测试数据 / 排行榜上实现了平均 F-1 分数为 0.9 的最佳性能，并通过添加音译数据、集成和一些后处理技术进一步提高了系统的性能，从而将我们放在了排行榜的第一位。

Jan, 2022

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

在线平台上的辱骂语言检测：关键分析

调查了当前针对滥用语言的自动检测方法以及在线平台的内容管理政策，研究方向及未来工作发展方向。

Feb, 2021

自动规范混合语言社交媒体文本中的单词变体

本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Apr, 2018

印度英语混合编码数据的攻击注释语料库

为了防止网络暴力和仇恨言论，本文通过对两个印度最流行的社交媒体平台 Twitter 和 Facebook 上的印地语 - 英语代码混合数据进行注释，开发出一套攻击标签集和注释语料库，以进行进一步的研究和防范。

Mar, 2018

多语种和多模态滥用检测

本文提出了一种多模态方法（MADA），以从社交媒体上的多语言对话音频中检测滥用内容为目标，并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明，MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现，并且在测试了 10 种不同语言后，在多模态结合的情况下可以获得 0.6％-5.2％的一致增益。此外，我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。

Apr, 2022

创建图像和文本混合数据集以研究辱骂语言

使用 CREENDER 开发了一个注释工具，用于创建图像和滥用评论的多模态数据集，该数据集在不同角度被分析，发现图像中是否存在人会增加触发攻击性评论的概率。

May, 2020

阿尔及利亚骚扰者在社交媒体网络中的在线行为

关于社交媒体滥用的研究：统计研究阿尔及利亚社区中的网络欺凌和滥用内容，以帮助自动滥用检测系统更好地识别这种非结构化和非正式的文本。

Mar, 2022

代码混合情感和仇恨言论预测

研究发现，针对社交媒体文本中的混合编码文本进行专门设计的双语模型和多语模型表现最佳，而庞大生成模型则不具有竞争力。对于情感分析和辱骂语言检测等任务，这些模型在混合编码数据上的表现稍微优于非混合编码数据。

May, 2024

謹言慎語：用於混合語言的濫用與冒犯檢測

本研究中，我们使用迁移学习和基于 LSTM 的模型对印地语和英语 (hinglish) 混合使用的口语文本中的攻击和滥用语言进行检测和分类，该模型比现有最佳模型表现更好，在 Hinglish 攻击文本分类领域成为最先进技术。我们还为研究目的发布了我们的模型和训练嵌入。

Sep, 2018