跨语言归纳迁移学习用于检测攻击性语言
本文介绍了我们在多语言环境下识别冒犯性语言的方法,使用数据增强策略,包括使用具有不同阈值的附加半监督标签和跨语言转移与数据选择,并提出了一个新的度量标准 Translation Embedding Distance,用于跨语言数据选择。我们还提出了各种预处理步骤和微调方法,定制社交媒体文本的预训练多语言 BERT(mBERT)来进行冒犯性语言识别,我们的多语言系统在 OffensEval 2020 上取得了有竞争力的结果。
Aug, 2020
本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测,结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。
Oct, 2020
本论文提出了一种多语言自动化系统,使用机器学习和转换器来从混合语言的数据中识别带有冒犯性的文本,并在 Tamil、Malayalam 和 Kannada 三种语言的数据集上进行了测试。结果表明,该系统在不同语言上表现出不同的最佳表现方法,得分最高的是 m-BERT(Kannada)和 XLM-R(Tamil 和 Malayalam),系统性能达到了一定的水平。
Feb, 2021
社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于该领域的跨语言情景。我们分析了 67 篇相关论文,并按多个维度对这些研究进行了分类,包括所使用的多语言数据集的特征,使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”,我们还总结了三种主要的 CLTL 转移方法:实例、特征和参数转移。此外,我们还对当前挑战和未来的研究机会进行了探讨。此外,我们还在线提供了调查资源,包括两个全面的表格,其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。
Jan, 2024
总结 SemEval-2020 中的 OffensEval 任务,它涉及多语言社交媒体中的多语种冒犯性语言识别,并说明了其在 OffensEval 2019 中的分层分类结构。
Jun, 2020
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习模型进行训练、微调和评估。结果显示,fBERT 和 HateBERT 等基于英语预训练的 Transformer 模型在该数据集上表现最佳。
Nov, 2023
本研究旨在研究利用来自不同文化背景(尤其是韩国和英国)的数据进行传递学习对汉语攻击性语言检测的影响,并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响,而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明,在有限的资源下,少样本学习情况下进行非英语攻击性语言检测有着良好的前景,并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。
Mar, 2023
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023
本文介绍了 SemEval-2019 任务 6(OffensEval)的结果和主要发现,该任务基于一个包含超过 14,000 个英文推文的新数据集 ——Offensive Language Identification Dataset(OLID),它有三个子任务,目标是在社交媒体上识别和分类攻击性语言。
Mar, 2019