CoRAL：一种上下文感知的克罗地亚辱骂语言数据集

Nov, 2022

CoRAL：一种上下文感知的克罗地亚辱骂语言数据集

CoRAL: a Context-aware Croatian Abusive Language Dataset

Ravi Shekhar, Mladen Karan, Matthew Purver

TL;DR提出了一个支持语言和文化感知的CoRAL数据集，用于评论内容异常检测。实验表明，半自动化模型在处理隐晦和复杂的评论时效果下降，特别需要语言和语境知识。

Abstract

In light of unprecedented increases in the popularity of the internet and social media, comment moderation has never been a more relevant task. Semi-automated comment moderation systems greatly aid human moderato

发现论文，激发创造

情感和辱骂语言检测的联合模型

本文探讨了自然语言处理在网络通信中检测恶意行为的方法，并提出了一种以情感状态为特征的多任务学习模型，证明在检测恶意行为方面效果显著。

May, 2020

異質環境下的辱罵語言檢測:數據集收集與監督注意力的作用

本文提出了一种注重异质性的辱骂评论的检测算法，使用带监督的注意机制和多任务学习来提高性能，并在一个包含11000条评论的YouTube数据集上进行了实验比较。

May, 2021

使用条件似然过滤减少语言模型的危害

提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Aug, 2021

多语种和多模态滥用检测

本文提出了一种多模态方法（MADA），以从社交媒体上的多语言对话音频中检测滥用内容为目标，并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明，MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现，并且在测试了 10 种不同语言后，在多模态结合的情况下可以获得 0.6％-5.2％的一致增益。此外，我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。

Apr, 2022

丰富滥用语言检测的社区背景

研究表明，通过了解社区背景，会显著提高现有的反滥用语言检测模型的分类性能，减少误报率。

Jun, 2022

语言变化对自动化评论审核的影响

本文研究在线仇恨在新闻评论中的传播情况，提出了使用机器学习和自然语言处理实现半自动恶意语言检测的方法，并通过德国报纸评论数据集的测试发现，传统机器学习技术对于动态语言环境下的检测效果不佳，需要考虑时序动态性以避免使用不具实用价值的模型。

Jul, 2022

多语言内容管理：Reddit案例研究

该研究介绍了一个多语言 Reddit 评论数据集，并通过对该数据集的实验分析，阐述了内容管理的挑战和相关研究问题，为自动内容管理的挑战和机遇做准备。

Feb, 2023

利用现有数据解决少样本辱骂内容检测问题

本文提出了一种两步法的方法，使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习，再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能，并且可以在不同语言中实现跨语言识别。

May, 2023

DoDo学习：针对公众人物的滥用言论检测的领域和人群转移

公众人物、社交媒体、滥用、跨群体文本分类和通用滥用分类器

Jul, 2023

HCDIR：在线评论的端到端仇恨上下文检测与强度降低模型

在这篇论文中，我们提出了一种新颖的端到端模型HCDIR，用于社交媒体帖子中仇恨上下文的检测和仇恨强度的降低。我们通过微调多个预训练语言模型来检测仇恨评论，并通过集成梯度（IG）模型辩证地确定了这些仇恨词的上下文。最后，我们使用掩蔽式语言建模（MLM）模型捕捉领域特定细微之处，以降低仇恨强度。我们在多个最新数据集上进行了广泛的实验，并使用基于自动度量标准（BERTScore）和全面的人工评估来增强信度。为了提高人工评估的可靠性，我们安排了一个由3名具有不同专业知识的人类标注者组成的小组。

Dec, 2023