CoRAL:一种上下文感知的克罗地亚辱骂语言数据集
本文提出了一种注重异质性的辱骂评论的检测算法,使用带监督的注意机制和多任务学习来提高性能,并在一个包含11000条评论的YouTube数据集上进行了实验比较。
May, 2021
提出一种从网页规模数据集中识别和过滤有害文本的方法,使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然,并根据该结果识别和过滤数据集中的文档,证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低,性能与未过滤基线相比略有降低,最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。
Aug, 2021
本文提出了一种多模态方法(MADA),以从社交媒体上的多语言对话音频中检测滥用内容为目标,并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明,MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现,并且在测试了 10 种不同语言后,在多模态结合的情况下可以获得 0.6%-5.2% 的一致增益。 此外,我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。
Apr, 2022
本文研究在线仇恨在新闻评论中的传播情况,提出了使用机器学习和自然语言处理实现半自动恶意语言检测的方法,并通过德国报纸评论数据集的测试发现,传统机器学习技术对于动态语言环境下的检测效果不佳,需要考虑时序动态性以避免使用不具实用价值的模型。
Jul, 2022
该研究介绍了一个多语言 Reddit 评论数据集,并通过对该数据集的实验分析,阐述了内容管理的挑战和相关研究问题,为自动内容管理的挑战和机遇做准备。
Feb, 2023
本文提出了一种两步法的方法,使用现有的包含多种任务相关的虐待性语言检测数据集进行多任务学习,再进行少量的适应性训练以针对新的标签集或语言。实验结果表明这种方法可以提高模型的性能,并且可以在不同语言中实现跨语言识别。
May, 2023
在这篇论文中,我们提出了一种新颖的端到端模型HCDIR,用于社交媒体帖子中仇恨上下文的检测和仇恨强度的降低。我们通过微调多个预训练语言模型来检测仇恨评论,并通过集成梯度(IG)模型辩证地确定了这些仇恨词的上下文。最后,我们使用掩蔽式语言建模(MLM)模型捕捉领域特定细微之处,以降低仇恨强度。我们在多个最新数据集上进行了广泛的实验,并使用基于自动度量标准(BERTScore)和全面的人工评估来增强信度。为了提高人工评估的可靠性,我们安排了一个由3名具有不同专业知识的人类标注者组成的小组。
Dec, 2023