MaNLP@SMM4H22: 用 BERT 对推特帖子进行分类
本文通过深度学习技术在 NLP 领域中实现对个体写作文本进行性别和年龄预测,主要采用了基于 BERT 的监督分类方法,并基于一个包含 681284 行数据的数据集进行研究和比较,结果表明,该方法能够更有效、精确地对文本数据进行分类,达到了 84.2% 的年龄组预测的拟合精度和 86.32% 的性别预测拟合精度,是一项具有广泛适用性的研究。
May, 2023
通过对英文推文中儿童医学疾病进行二分类,本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调,而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致,但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938,超过了基准分类器 1.18%。
Jun, 2024
该论文介绍了我们在 SMM4H 2022 共享任务中对 Twitter 上的自我报告的亲密伴侣暴力进行分类的提交。该系统是由五个 RoBERTa 模型的集成组成,并通过其在验证数据集上的 F1 分数进行加权。这个系统的效果比基线提高了 13%,并成为这个共享任务中表现最好的系统。
Sep, 2022
使用 BERT 模型对 SemEval2017 中 Twitter 上的英语情感分析任务 4A 进行解决,在训练数据量较小的分类任务中,BERT 是一个非常强大的大型语言模型。使用此模型进行实验时,我们使用了包含 12 个隐藏层的 BERT BASE 模型,该模型在准确性、精确率、召回率和 F1 分数上优于朴素贝叶斯基线模型,在二分类子任务中表现更好,我们还在实验过程中考虑了所有种类的伦理问题,因为 Twitter 数据包含个人和敏感信息。我们在此 GitHub 存储库中提供了实验中使用的数据集和代码。
Jan, 2024
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务,并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机(SVM)进行训练(即 BERT +),并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。
Dec, 2020
本研究参与了 SMM4H 2024 研讨会的第 3 和第 5 任务,以解决推文数据中的分类挑战。通过使用预训练的编码器 - 解码器模型,如 BART-base 和 T5-small,利用迁移学习识别了给定推文的标签,并采用数据增强方法提高了模型性能。最终,在第 3 任务中获得了 0.627 的最佳 F1 分数,在第 5 任务中获得了 0.841 的最佳 F1 分数。
Apr, 2024
我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型(BERT)与 LightGBM 模型结合取得了最高的 f1 分数为 0.94,对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。
Jan, 2024
使用基于 Transformer 的多个模型对推文进行预处理,实现自动识别 COVID-19 诊断的推文,并获得高于平均值 4.1% 的 84.5% 的 F1 分数。
Nov, 2023
本文提出了一种方法,通过将中性情绪加入到包含恐惧、悲伤、喜悦和愤怒四种情绪的基准数据集中,构建了一个平衡的数据集。在这个扩展数据集上,我们研究了支持向量机(SVM)和双向编码器表示转换器(BERT)在情感识别中的应用,并提出了一种将两种模型结合的新型集成模型。实验结果表明,该模型在推特情感识别中实现了 0.91 的准确率。
Aug, 2022