使用多个 BERT 模型在推特中对自报家庭暴力进行分类
介绍了 UM-IU@LING 在 SemEval 2019 Task 6 中采用混合方法识别和分类社交媒体中的仇恨言论的系统,在子任务 A 中,使用经过微调的基于 BERT 的分类器在推文中检测恶意内容,在测试集上获得了 0.8136 的宏 F1 分数,位于 103 个提交中的第三名,在任务 B 和 C 中,使用选定字符 n-gram 特征的线性支持向量机,在子任务 C 中,系统可以识别出滥用的目标,最终在 65 个提交中排名第 27 位。
Apr, 2019
本研究介绍了一种基于社交媒体挖掘的方法,用于对生日推文进行分类并区分精确年龄和非精确年龄,采用不同的文本预处理进行了两次提交并获得了 SMM4H 组织者评估的 0.80 和 0.81 的 F1 值。
Dec, 2022
通过对英文推文中儿童医学疾病进行二分类,本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调,而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致,但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938,超过了基准分类器 1.18%。
Jun, 2024
本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速,开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中,检测暴力煽动文本的问题更加严重,因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本,每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型,然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10,宏观 F1 得分为 0.737。
Nov, 2023
使用基于 Transformer 的多个模型对推文进行预处理,实现自动识别 COVID-19 诊断的推文,并获得高于平均值 4.1% 的 84.5% 的 F1 分数。
Nov, 2023
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型(BERT)与 LightGBM 模型结合取得了最高的 f1 分数为 0.94,对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。
Jan, 2024
本文描述了我们团队在 SemEval-2022 任务 5 中开发的自动鄙视女性言论辨识系统,该系统采用了 Bertweet 和 ResNet-18 等多种模型进行文本和图像分析,取得了较好的分类效果,排名 15 和 11 位。
Feb, 2022
本文提出了一种方法,通过将中性情绪加入到包含恐惧、悲伤、喜悦和愤怒四种情绪的基准数据集中,构建了一个平衡的数据集。在这个扩展数据集上,我们研究了支持向量机(SVM)和双向编码器表示转换器(BERT)在情感识别中的应用,并提出了一种将两种模型结合的新型集成模型。实验结果表明,该模型在推特情感识别中实现了 0.91 的准确率。
Aug, 2022
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024