NLP-LTU 在 SemEval-2023 任务 10 中：数据增强和半监督学习技术对不平衡数据集上文本分类性能的影响

ACLApr, 2023

NLP-LTU 在 SemEval-2023 任务 10 中：数据增强和半监督学习技术对不平衡数据集上文本分类性能的影响

NLP-LTU at SemEval-2023 Task 10: The Impact of Data Augmentation and Semi-Supervised Learning Techniques on Text Classification Performance on an Imbalanced Dataset

PDF

Sana Sabah Al-Azzawi, György Kovács, Filip Nilsson, Tosin Adewumi, Marcus Liwicki

TL;DR本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法，使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型，并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题，在 SubtaskA 获得了 0.8613 的 F1 得分，排名第十。

Abstract

In this paper, we propose a methodology for task 10 of semeval23, focusing on detecting and classifying online sexism in social media post

semeval23 online sexism social media bertweet semi-supervised learning

发现论文，激发创造

HULAT 在 SemEval-2023 任务 10 中的应用：数据增强以应用于预训练的 transformer 模型对社交媒体中性别歧视的检测

本研究使用 RoBERTa 和数据增强等技术探讨社交媒体中的性别歧视检测，并进一步研究了不同数据增强技术，研究结果仍有提升空间。

Feb, 2023

HULAT 参加 SemEval-2023 任务 9：基于数据增强的预训练 Transformer 在多语言推特亲密度分析中的应用

该研究讨论了使用数据增强技术 fine-tune 最流行的 Transformer 模型来参加 SemEval-2023 任务 9，多语言推文的亲密度分析。研究结果表明，我们的系统在多种语言中有良好表现，尤其是葡萄牙语、英语和荷兰语。

Feb, 2023

利用数据增强提高语言模型在分类法分类任务的泛化能力

该研究介绍了利用 ELECTRA 语言模型和数据增广技术设计出的 UU-Tax 模型，在 SemEval-2022 的 PreTENS 子任务 1 中取得了 91.25% 的 F1_Binary 分数，并在子任务 2 中利用 Universal Sentence Encoder 提取特征进行分类，取得了 0.221 的 rho 分数。

Oct, 2022

基于小型数据集的神经数据 - 文本生成：在大型语言模型之上比较两种半监督学习方法的附加值

本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明，半监督学习方法可以增强输出质量和多样性，即使已经使用了预训练语言模型。

Jul, 2022

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

UBC-DLNLP 参加 SemEval-2023 任务 12：迁移学习对非洲情感分析的影响

该研究通过使用六种语言模型并采用迁移学习和微调技术，开发了用于 14 种不同非洲语言情感分析的多语言模型，最终在开发和测试数据中取得了 F1 得分。结果表明跨多种语言的情感分析可以通过迁移学习和微调技术实现，该方法可以应用于其他语言和领域的情感分析任务。

Apr, 2023

软件电子设计自动化：以软标签重构基于规则的数据增强

我们提出了一种简单直接的技术，通过应用软标签来改善基于规则的文本数据增强方法在自然语言处理任务中的性能。通过在七个不同的分类任务上进行实验，我们在经验证明了我们的方法的有效性，并公开了源代码以便复现。

Feb, 2024

使用数据增强半监督模型分类交互情感响应

介绍了一种使用数据增强技术的半监督文本分类系统，使用基于 transformer 的模型编码每个句子，使用数据增强技术来拓展给定句子的语义空间，实现了标记和未标记的句子分类，并引入了一种一致性正则化方法用于未标记的数据，实验结果表明该系统在 F1 值和准确性方面优于基线模型。

Apr, 2020

在 SemEval-2024 任务 2 中的 DKE 研究：结合数据增强、生成模型和生物医学知识提高推理鲁棒性

通过语义扰动和特定领域词汇替换生成合成示例，并添加数值和定量推理新任务，以改进生物医学临床试验中自然语言推理模型的鲁棒性，结合多任务学习和 DeBERTa 结构，相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。

Apr, 2024

HausaNLP 在 SemEval-2023 任务 10 中的应用：传递学习、合成数据和侧面信息用于多级别性别歧视分类

本文对 SemEval-2023 Task 10 的 EDOS 任务进行了参与和研究，讨论了将两个语言模型：XLM-T 和 HateBERT 迁移用于英语 Gab 和 Reddit 数据集的多层次分类，进一步细分至性别歧视或非性别歧视，并使用人工标签数据和中间类信息实现了用于最大化模型性能的综合分类。我们提交的系统在 Task A 排名第 49，F1 得分为 0.82，并且仅低于最优系统 F1 得分 0.052％，表现具有较竞争力。

Apr, 2023