ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

Jun, 2024

ToxiCloakCN: 评估中文攻击性语言识别模型的鲁棒性

ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations

Yunze Xiao, Yujia Hu, Kenny Tsu Wei Choo, Roy Ka-wei Lee

TL;DR通过改进的数据集在汉语中测试大型语言模型（LLMs）对于侮辱性内容的检测，研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足，强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。

Abstract

Detecting hate speech and offensive language is essential for maintaining a safe and respectful digital environment. This study examines the limitations of state-of-the-art large language models (LLMs) in identif

hate speech detection offensive language large language models cloaking perturbations offensive content detection

发现论文，激发创造

中文恶意言语检测：现状与未来方向

监测和规范社交媒体平台上用户生成内容的努力虽然仍然在进行，但数字空间中令人不悦的语言（如仇恨言论或网络欺凌）的普遍存在仍然是一个重大挑战。本文全面概述了中文中令人不悦言语的检测，考察了当前的基准和方法，并强调了解决这种复杂语言中令人不悦言语检测的独特挑战的特定模型和工具，旨在探索现有技术并找出能够应对中文的文化和语言复杂性的进一步研究方向。

Mar, 2024

跨文化转移学习用于汉语攻击性言语检测

本研究旨在研究利用来自不同文化背景（尤其是韩国和英国）的数据进行传递学习对汉语攻击性语言检测的影响，并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响，而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明，在有限的资源下，少样本学习情况下进行非英语攻击性语言检测有着良好的前景，并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。

Mar, 2023

跨语言归纳迁移学习用于检测攻击性语言

本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言，实验结果表明我们的模型在五种语言中表现竞争力，并在零 - shot 学习环境下显示出可扩展性。

Jul, 2020

论攻击性语言分类器的鲁棒性

该研究对社交媒体平台上的机器学习型进攻性语言分类器的鲁棒性做出了系统的分析，并证明了具有贪婪和注意力机制的词汇选择和上下文感知嵌入的攻击可将这些分类器的准确性降低 50% 以上，同时还能保持修改后文本的可读性和含义。

Mar, 2022

跨语言冒犯性语言检测：数据集、迁移方法和挑战的系统综述

社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性，尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习（CLTL）技术探索。我们的研究作为首个综合概述，专注于该领域的跨语言情景。我们分析了 67 篇相关论文，并按多个维度对这些研究进行了分类，包括所使用的多语言数据集的特征，使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”，我们还总结了三种主要的 CLTL 转移方法：实例、特征和参数转移。此外，我们还对当前挑战和未来的研究机会进行了探讨。此外，我们还在线提供了调查资源，包括两个全面的表格，其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。

Jan, 2024

COLD: 中文攻击性语言检测基准

该研究在探索中文领域下的垃圾语言检测，提出了一个基准和数据集并使用预训练语言模型进行分析，结果表明，该基准和数据集能有效提高中文垃圾语言的检测难度，同时也揭示了触发垃圾语言的关键词。

Jan, 2022

伪装即一切所需：评估和增强语言模型抵御伪装对抗攻击的鲁棒性

采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性，使性能下降最多为 5%。然而，模型的性能与鲁棒性之间存在一种权衡关系，进一步的研究仍然需要进行。

Feb, 2024

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

多语言冒犯性语言识别的文本对文本模型

社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型，用于冒犯语言识别，并在两个大型冒犯语言识别数据集（SOLID 和 CCTK）上训练。研究结果表明，预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型，在多语言场景中，多语言预训练模型在所有上述数据集上实现了新的最优表现。

Dec, 2023

通过人为扰动在线评估内容审核机器学习模型

本文提出了一种包含人为写作的扰动，用于评估社交媒体上毒性发言检测模型的效果，并测试了该测试集在深度学习　(BERT 和 RoBERTa) 和黑盒 API（如 Perspective API）上的表现，结果表明带有真实人为扰动的对抗攻击仍然有效。

Mar, 2023