PALI-NLP 参加 SemEval2022 任务 4:基于 Transformers 的辨别微调技术用于判断优越和屈尊语言
本文描述了我们提交给 SemEval 2022 任务 4 的依靠预训练语言模型,数据增强和优化检测阈值来检测媒体针对弱势群体使用的居高临下的语言,实验结果表明它能可靠地检测到居高临下的语言,二元分类任务的 F1 得分为 55.47%,细粒度多标签检测任务的宏 F1 得分为 36.25%。
Apr, 2022
本文探讨了使用基于 prompt 的学习方法解决 PCL 检测问题。使用 DeBERTa 模型和在任务特定提示中自适应预测的方法,将 PCL 检测问题转化为适当的 cloze 提示填充,达到了 0.6406 的二元分类 F1 分数和 0.4689 的多标签分类宏 F1 分数并在 leaderboard 中排名第一的结果。
Aug, 2022
本研究论文描述了 LTU 机器学习小组在 SemEval-2022 任务 4 的子任务 1:亲切和傲慢语言检测中使用的系统。我们的系统包括微调预训练的 Text-to-Text-Transfer Transformer(T5)并创新性地减少其的未分类预测。本文的主要贡献是:1)介绍我们使用的 T5 模型的实现细节,2)分析模型在此任务中的成功和困难,3)进行去除正式提交的消融研究,并确定数据拆分的相对重要性。我们的模型在官方测试集上获得了 0.5452 的 F1 得分。
Apr, 2022
该研究针对 SemEval-2022 PCL 任务提出了一种只使用字符和单词 n-gram 的逻辑回归模型,该模型得到了平均水平的表现,远高于不使用任何任务知识的猜测系统,但低于最优团队。在表明提出的模型与在识别仇恨言论和冒犯内容方面表现良好的模型非常相似的同时,该论文证实了 PCL 检测的难度。
Mar, 2022
本论文介绍了一个新的注释数据集,旨在支持开发 NLP 模型以识别和分类针对弱势群体(如难民,无家可归者,贫穷家庭)的含有愚弄或屈辱意味的语言,通过对该数据集的分析,我们发现对标准 NLP 模型来说,识别针对弱势群体的屈辱言词是有挑战的,并且 BERT 语言模型在该任务上取得了最好的结果。
Nov, 2020
本文介绍了作者参与的 SemEval-2022 任务 4:优越和轻蔑性语言检测,并对子任务 1 中的预训练语言模型 RoBERTa 进行了比较研究,发现相对于基于神经网络的系统,RoBERTa 在两个子任务上表现更好,其中在子任务 1 中排名第 26,F1 分数为 54.64,在子任务 2 中排名第 23,F1 分数为 30.03。
Nov, 2022
本文描述了使用不同模型来检测新闻文章中的居高临下和傲慢语言的开发过程,并且这些模型基于预先训练的 RoBERTa 语言模型并结合 LSTM 和 CNN 层。最佳模型在子任务 A 中排名第 15,F1 得分为 0.5924,在子任务 B 中排名第 12,宏平均 F1 得分为 0.3763。
Apr, 2022
检测网络中的居高临下和傲慢语言对遭受其影响的人的心理健康具有严重影响,因此作者通过多种深度学习模型和神经网络模型的组合,成功开发了一种在线审核系统,可实时检测这种语言,并进行有效的处理。研究结果显示,该模型的 F 值在开发数据集和最终测试数据集上分别为 0.6441 和 0.5745。同时,作者还进行了全面的误差分析,以进一步深入研究其限制性和扩展性。
Mar, 2022
该论文提出了 DPT 作为针对区分性 PLMs 的 prompt tuning 框架,并将自然语言处理任务转换为区分性语言建模问题。通过全面的文本分类和问答实验表明,与 vanilla fine-tuning 相比,DPT 在全集和低资源环境下都能显著提高性能,并解决了调整大型 PLMs 中的不稳定问题。
May, 2022
使用预先训练的替换词检测模型,结合模式感知集成方法,本文在 SemEval 2022 任务 7 中获得更佳的多分类和排序结果,实现了 68.90% 的准确率以及 0.8070 的斯皮尔曼等级相关分数,超过第二名的分数。
Nov, 2022