SemEval-2022 任务 4 中的 SATLab：仅使用字符和词 N-grams 尝试检测居高临下和轻蔑的语言

Mar, 2022

SemEval-2022 任务 4 中的 SATLab：仅使用字符和词 N-grams 尝试检测居高临下和轻蔑的语言

SATLab at SemEval-2022 Task 4: Trying to Detect Patronizing and Condescending Language with only Character and Word N-grams

PDF

Yves Bestgen

TL;DR该研究针对 SemEval-2022 PCL 任务提出了一种只使用字符和单词 n-gram 的逻辑回归模型，该模型得到了平均水平的表现，远高于不使用任何任务知识的猜测系统，但低于最优团队。在表明提出的模型与在识别仇恨言论和冒犯内容方面表现良好的模型非常相似的同时，该论文证实了 PCL 检测的难度。

Abstract

A logistic regression model only fed with character and word n-grams is proposed for the semeval-2022 Task 4 on Patronizing and Condescend

logistic regression n-grams semeval-2022 patronizing and condescending language detection hate speech

发现论文，激发创造

UMass PCL 参加 SemEval-2022 任务 4：基于预训练语言模型的集成方法用于检测居高临下和轻蔑语言

本文描述了我们提交给 SemEval 2022 任务 4 的依靠预训练语言模型，数据增强和优化检测阈值来检测媒体针对弱势群体使用的居高临下的语言，实验结果表明它能可靠地检测到居高临下的语言，二元分类任务的 F1 得分为 55.47％，细粒度多标签检测任务的宏 F1 得分为 36.25％。

Apr, 2022

PALI-NLP 参加 SemEval2022 任务 4：基于 Transformers 的辨别微调技术用于判断优越和屈尊语言

本文提出了一种基于 Transformer 的模型及其集成，通过两种微调策略捕捉多样的语言行为和分类分布，从而准确理解 PCL 语言语境，获得了出色的结果。

Mar, 2022

BEIKE NLP 参加 SemEval-2022 任务 4：基于提示的段落分类，用于辨别居高临下的语言

本文探讨了使用基于 prompt 的学习方法解决 PCL 检测问题。使用 DeBERTa 模型和在任务特定提示中自适应预测的方法，将 PCL 检测问题转化为适当的 cloze 提示填充，达到了 0.6406 的二元分类 F1 分数和 0.4689 的多标签分类宏 F1 分数并在 leaderboard 中排名第一的结果。

Aug, 2022

ML_LTU 参加 SemEval-2022 任务 4：T5 向识别居高临下和轻蔑语言挑战

本研究论文描述了 LTU 机器学习小组在 SemEval-2022 任务 4 的子任务 1：亲切和傲慢语言检测中使用的系统。我们的系统包括微调预训练的 Text-to-Text-Transfer Transformer（T5）并创新性地减少其的未分类预测。本文的主要贡献是：1）介绍我们使用的 T5 模型的实现细节，2）分析模型在此任务中的成功和困难，3）进行去除正式提交的消融研究，并确定数据拆分的相对重要性。我们的模型在官方测试集上获得了 0.5452 的 F1 得分。

Apr, 2022

Taygete 在 SemEval-2022 任务 4 中：基于 RoBERTa 的模型用于检测居高临下和轻视的语言

本文描述了使用不同模型来检测新闻文章中的居高临下和傲慢语言的开发过程，并且这些模型基于预先训练的 RoBERTa 语言模型并结合 LSTM 和 CNN 层。最佳模型在子任务 A 中排名第 15，F1 得分为 0.5924，在子任务 B 中排名第 12，宏平均 F1 得分为 0.3763。

Apr, 2022

Xu 参与 SemEval-2022 任务 4：预 BERT 神经网络方法与后 BERT RoBERTa 方法的亲切和轻蔑语言检测对比

本文介绍了作者参与的 SemEval-2022 任务 4：优越和轻蔑性语言检测，并对子任务 1 中的预训练语言模型 RoBERTa 进行了比较研究，发现相对于基于神经网络的系统，RoBERTa 在两个子任务上表现更好，其中在子任务 1 中排名第 26，F1 分数为 54.64，在子任务 2 中排名第 23，F1 分数为 30.03。

Nov, 2022

请勿居高临下！一个带有针对弱势群体的居高临下和蔑视性言语的批注数据集

本论文介绍了一个新的注释数据集，旨在支持开发 NLP 模型以识别和分类针对弱势群体（如难民，无家可归者，贫穷家庭）的含有愚弄或屈辱意味的语言，通过对该数据集的分析，我们发现对标准 NLP 模型来说，识别针对弱势群体的屈辱言词是有挑战的，并且 BERT 语言模型在该任务上取得了最好的结果。

Nov, 2020

UTSA NLP 在 SemEval-2022 任务 4 中的探索：简单 Transformer、卷积和循环神经网络集成

检测网络中的居高临下和傲慢语言对遭受其影响的人的心理健康具有严重影响，因此作者通过多种深度学习模型和神经网络模型的组合，成功开发了一种在线审核系统，可实时检测这种语言，并进行有效的处理。研究结果显示，该模型的 F 值在开发数据集和最终测试数据集上分别为 0.6441 和 0.5745。同时，作者还进行了全面的误差分析，以进一步深入研究其限制性和扩展性。

Mar, 2022

一种简单的、与语言无关的却非常强大的基线系统，用于仇恨言论和攻击性内容的识别

通过使用基于字符 n-gram 的经典监督算法，SATLab 团队提出了一种自动识别推文中仇恨言论和冒犯性内容的系统，该系统与语言无关。在优化特征加权和分类器参数后，该系统在英语中达到了中等表现水平，在印地语和马拉地语这两种资源较少的语言中表现更好，甚至在这些语言的三项任务中的平均表现要比许多深度学习方法更好。表现表明该方法是一个有趣的参考水平，可用于评估使用更复杂方法（例如深度学习或考虑补充资源）的好处。

Feb, 2022

Duluth 在 SemEval-2020 任务 12 中：使用逻辑回归在英语中识别具有攻击性的推文

本文介绍了 Duluth 系统参加了 SemEval-2020 任务 12：社交媒体中的多语种攻击性语言识别（OffensEval-2020），利用逻辑回归提供了一个简单的机器学习基线，并使用任务组织者提供的远程监督训练数据进行了模型训练。然而，最终在比较评估中的排名并不高，我们进行了定性分析并发现金标准数据中的类别标签有一定的噪声，这样的高排名可能反映的是训练数据上过拟合而并不能很好地预测英语中攻击性语言的特点。

Jul, 2020