COLD: 中文攻击性语言检测基准
监测和规范社交媒体平台上用户生成内容的努力虽然仍然在进行,但数字空间中令人不悦的语言(如仇恨言论或网络欺凌)的普遍存在仍然是一个重大挑战。本文全面概述了中文中令人不悦言语的检测,考察了当前的基准和方法,并强调了解决这种复杂语言中令人不悦言语检测的独特挑战的特定模型和工具,旨在探索现有技术并找出能够应对中文的文化和语言复杂性的进一步研究方向。
Mar, 2024
本研究旨在研究利用来自不同文化背景(尤其是韩国和英国)的数据进行传递学习对汉语攻击性语言检测的影响,并发现考虑文化特定的偏见会对语言模型的可传递性产生负面影响,而在多元文化的数据上训练的语言模型对汉语攻击性语言检测的不同特征敏感。研究表明,在有限的资源下,少样本学习情况下进行非英语攻击性语言检测有着良好的前景,并突显了跨文化传递学习在改善攻击性语言检测和促进包容性数字空间方面的重要性。
Mar, 2023
通过改进的数据集在汉语中测试大型语言模型(LLMs)对于侮辱性内容的检测,研究表明现有模型在存在这些干扰时检测侮辱性内容的性能明显不足,强调了对进阶技术的迫切需求以应对逃避检测机制的不断演变的策略。
Jun, 2024
本文介绍了韩国冒犯性语言数据集(KOLD),其中包含 40,429 个分层注释的评论,以及相应文本跨度的注释。作者使用这些注释的评论作为韩文 BERT 和 RoBERTa 模型的训练数据,并发现它们对于冒犯性检测、目标分类和目标跨度检测很有效。提供上下文信息可以显著提高模型性能,在冒犯性检测(+0.3)、目标分类(+1.5)和目标组分类(+13.1)方面有所改善。
May, 2022
社交媒体上恶意用语的普遍存在对社会福祉产生了不利影响,因此,解决这个问题变得非常重要。本研究中,我们提出了一个新的数据集 OffLanDat,这是一个由 ChatGPT 生成的基于社区的隐式恶意语言数据集,包含了 38 个不同目标群体的数据,并采用了一种基于提示的零 - shot 方法与 ChatGPT 进行比较,以评估数据的质量和检测结果。
Mar, 2024
本文采用跨语言归纳方法基于上下文的词嵌入模型 XLM-RoBERTa 检测跨语言社交媒体中的冒犯性语言,实验结果表明我们的模型在五种语言中表现竞争力,并在零 - shot 学习环境下显示出可扩展性。
Jul, 2020
社交媒体的普及性使得需要可靠高效地检测有害内容以限制其负面影响。本文介绍 HateCOT 数据集,该数据集包含 52000 个样本,来自多个不同来源,并使用 GPT-3.5-Turbo 和人工筛选生成解释。我们展示在 HateCOT 上对于检测有害内容的预训练模型,在三个基准数据集上,在零样本和少样本情况下,显著提升了开源语言模型的性能,尽管存在领域和任务的差异。我们进一步发现 HateCOT 使得在低资源情况下进行有效的 K-shot 微调成为可能。
Mar, 2024
研究探讨了语言技术中文化多样性的重要性,特别是对于涉及文化细微差别的主观任务(如冒犯性语言检测)而言,需要转向考虑文化特征对跨文化迁移学习的影响以提高任务的成功率。研究结果表明,文化价值调查在冒犯性语言检测任务的跨文化迁移学习中具有预测能力,并且可以通过冒犯性词语距离进一步提高成功率。因此,研究提倡在数据集中整合文化信息,并建议利用富含文化信息的数据源增强文化适应性。本研究对于更具包容性和文化敏感的语言技术迈出了一步。
Oct, 2023
社交媒体中冒犯性语言的快速增长和快速演变加大了检测的复杂性,尤其突显了在不同语言中识别此类内容的挑战。该调查针对社交媒体中的冒犯性语言检测在跨语言场景中进行了系统全面的交叉语言转移学习(CLTL)技术探索。我们的研究作为首个综合概述,专注于该领域的跨语言情景。我们分析了 67 篇相关论文,并按多个维度对这些研究进行了分类,包括所使用的多语言数据集的特征,使用的跨语言资源以及具体实施的 CLTL 策略。根据 “要转移什么”,我们还总结了三种主要的 CLTL 转移方法:实例、特征和参数转移。此外,我们还对当前挑战和未来的研究机会进行了探讨。此外,我们还在线提供了调查资源,包括两个全面的表格,其中提供了审查文献中使用的多语言数据集和 CLTL 方法的可访问参考。
Jan, 2024
本研究针对斯里兰卡使用人数超过 1700 万的 Sinhala 语,开发了一个手工注释的数据集 SOLD,和一个更大的半监督数据集 SemiSOLD,用以改进机器学习模型鉴别 Sinhala 语的具有攻击性的语言的能力。
Dec, 2022