使用多个 BERT 模型在推特中对自报家庭暴力进行分类

Sep, 2022

使用多个 BERT 模型在推特中对自报家庭暴力进行分类

AIR-JPMC@SMM4H'22: Classifying Self-Reported Intimate Partner Violence in Tweets with Multiple BERT-based Models

Alec Candidato, Akshat Gupta, Xiaomo Liu, Sameena Shah

TL;DR该论文介绍了我们在 SMM4H 2022 共享任务中对 Twitter 上的自我报告的亲密伴侣暴力进行分类的提交。该系统是由五个 RoBERTa 模型的集成组成，并通过其在验证数据集上的 F1 分数进行加权。这个系统的效果比基线提高了 13％，并成为这个共享任务中表现最好的系统。

Abstract

This paper presents our submission for the smm4h 2022-Shared Task on the classification of self-reported intimate partner violence on twitter

smm4h 2022 twitter intimate partner violence roberta models ensemble

发现论文，激发创造

利用 BERT 和 SVM 识别冒犯性推文的 SemEval-2019 任务 6 中的 UM-IU@LING

介绍了 UM-IU@LING 在 SemEval 2019 Task 6 中采用混合方法识别和分类社交媒体中的仇恨言论的系统，在子任务 A 中，使用经过微调的基于 BERT 的分类器在推文中检测恶意内容，在测试集上获得了 0.8136 的宏 F1 分数，位于 103 个提交中的第三名，在任务 B 和 C 中，使用选定字符 n-gram 特征的线性支持向量机，在子任务 C 中，系统可以识别出滥用的目标，最终在 65 个提交中排名第 27 位。

Apr, 2019

MaNLP@SMM4H22: 用 BERT 对推特帖子进行分类

本研究介绍了一种基于社交媒体挖掘的方法，用于对生日推文进行分类并区分精确年龄和非精确年龄，采用不同的文本预处理进行了两次提交并获得了 SMM4H 组织者评估的 0.80 和 0.81 的 F1 值。

Dec, 2022

LT4SG@SMM4H24：利用预训练语言模型对儿童健康结果进行数字流行病学推断的推文分类

通过对英文推文中儿童医学疾病进行二分类，本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调，而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致，但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938，超过了基准分类器 1.18%。

Jun, 2024

Mavericks 在 BLP-2023 任务 1 中：使用语言模型的基于合集的方法进行暴力煽动文本检测

本文介绍了我们在第一届孟加拉语语言处理研讨会的暴力煽动文本检测共享任务中的工作。针对社交媒体上的仇恨和暴力煽动性言论的传播加速，开发高效的机制来检测和遏制此类文本的传播至关重要。在资源匮乏的环境中，检测暴力煽动文本的问题更加严重，因为研究稀少且数据较少。共享任务提供的数据是孟加拉语文本，每个示例根据暴力煽动文本的类型被分类为三个类别之一。我们尝试评估了几个基于 BERT 的模型，然后使用模型集成作为我们的最终提交。我们的提交在最终排行榜上排名第 10，宏观 F1 得分为 0.737。

Nov, 2023

2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

使用基于 Transformer 的多个模型对推文进行预处理，实现自动识别 COVID-19 诊断的推文，并获得高于平均值 4.1% 的 84.5% 的 F1 分数。

Nov, 2023

基于 BERT 模型的 COVID-19 相关推文的虚假新闻检测和情感分析

我们的团队 “techno” 参加了 CERIST'22 共享任务，利用自然语言处理工具和 BERT 预训练语言模型，对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务，并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。

Apr, 2023

COVID-19 自诊断分类：BERT 和 LightGBM 模型

我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型（BERT）与 LightGBM 模型结合取得了最高的 f1 分数为 0.94，对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。

Jan, 2024

AMS_ADRN 在 SemEval-2022 任务 5 中：一种适合的图文多模态联合建模方法用于多任务厌女症鉴别

本文描述了我们团队在 SemEval-2022 任务 5 中开发的自动鄙视女性言论辨识系统，该系统采用了 Bertweet 和 ResNet-18 等多种模型进行文本和图像分析，取得了较好的分类效果，排名 15 和 11 位。

Feb, 2022

使用 BERT 和 SVM 集成模型对推文进行情感检测

本文提出了一种方法，通过将中性情绪加入到包含恐惧、悲伤、喜悦和愤怒四种情绪的基准数据集中，构建了一个平衡的数据集。在这个扩展数据集上，我们研究了支持向量机（SVM）和双向编码器表示转换器（BERT）在情感识别中的应用，并提出了一种将两种模型结合的新型集成模型。实验结果表明，该模型在推特情感识别中实现了 0.91 的准确率。

Aug, 2022

SemEval-2017 任务 4: 使用 BERT 进行 Twitter 情感分析

使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决，在训练数据量较小的分类任务中，BERT 是一个非常强大的大型语言模型。使用此模型进行实验时，我们使用了包含 12 个隐藏层的 BERT BASE 模型，该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型，在二分类子任务中表现更好，我们还在实验过程中考虑了所有种类的伦理问题，因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。

Jan, 2024