当涉及言语问题时：重新审视标记敏感内容的方法

Nov, 2023

当涉及言语问题时：重新审视标记敏感内容的方法

When a Language Question Is at Stake. A Revisited Approach to Label Sensitive Content

Stetsenko Daria

TL;DR许多资源匮乏的语言需要具有高质量的特定任务数据集，例如辱骂语言检测、虚假消息或错误信息识别。本文从乌克兰推文的伪标记敏感数据的方法出发，重新审视了使用该方法的过程，重点关注俄乌战争相关主题。通过实验，突出了数据标注的三个主要阶段，并强调了机器标注过程中的主要障碍。最终，我们对获得的数据进行了基础统计分析，并对用于伪标记的模型进行了评估，提供了进一步指导，以便科学家能在不涉及标注人员的情况下利用语料库进行更高级的研究和扩展现有数据样本。

Abstract

Many under-resourced languages require high-quality datasets for specific tasks such as offensive language detection, disinformation, or m

under-resourced languages offensive language detection disinformation misinformation identification pseudo-labeling

发现论文，激发创造

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023

同意不同意：在冒犯性词语数据集上注释注解者的不同意见

本文提出了一种用于创建自然语言数据集的方法，通过将标注者的观点选为不同的训练集和测试集，可以提高分类器的性能和鲁棒性，为社交媒体中的恶意语言检测提供更好的数据准备。

Sep, 2021

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024

网络有害言论的多维度识别视角：不只是仇恨

本文介绍了一种使用多个标签注释恶意在线言论的方法，强调了注释应该是细致、准确的。作者发布了一个高质量的数据集，使用六个标签注释了超过 40,000 条有关移民的推文，在此数据集上训练模型的表现优于基准数据集。

Oct, 2022

多语言模型在社交媒体上识别冒犯性语言的表现

本研究旨在使用多种算法测试识别冒犯帖子的能力，并评估其对多种评估方法的性能，以减少这些语言对人工审核者的伤害。通过实验，本项目能够激发对识别方法和内容的未来研究。

Dec, 2023

探索大型语言模型中的注释者偏见对仇恨言论检测的影响

通过分析 GPT 3.5 和 GPT 4o 在标注仇恨言论数据时存在的偏见，本研究对性别、种族、宗教和残疾等四个主要类别中高度脆弱的群体进行了偏见分析，并通过对标注数据的仔细审查，全面研究了可能导致这些偏见的潜在因素。该研究为指导研究人员和从业者充分利用大语言模型进行数据标注，从而推进这一关键领域的进展提供重要资源。

Jun, 2024

滥用言论具有语境性，那么 NLP（自然语言处理）呢？语境在滥用言论注释和检测中的作用

本研究通过给出上下文，重新注释部分英文侮辱语言检测数据集，比较了基于上下文和不基于上下文两种数据集上三种分类算法的性能，发现基于上下文的分类更具挑战性，但也更类似于实际应用场景。

Mar, 2021

跨语言情感分析技术辅助有害内容检测的综合框架

本研究介绍了一种适用于任何语言的详细框架，其中包括有关有害语言检测的各个方面，同时也提出了情感分析的整合作为改进有害语言检测的新方法。通过在低资源语言中实施该框架，展示了其高效的性能，达到了 99.4% 的恶意语言检测准确率和 66.2% 的情感分析准确率。

Mar, 2024

扩展仅有少量资源的语言中仇恨言论检测的数据高效策略

本文旨在研究如何在少资源语言情况下进行有效的仇恨言论检测，发现只需少量目标语言数据即可获得良好性能，并初步发现在英语数据的支持下，fine-tuning 可在一定程度上替代目标语数据并提高模型泛化性能。

Oct, 2022

使用两阶段半监督方法检测开放领域对话中的攻击性内容

本文提出了一个两步骤的半监督方法来从公共资源中引导大规模数据，以自动检测敏感语言，展示该方法在公共标注数据集和所提出的半监督数据集上显示出的优异表现和泛化能力，无需为敏感类别提供显式标签，从而在 Twitter 和 Toxic Wikipedia test 数据上实现了高达 95.5％的 F1 得分。

Nov, 2018