2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

MMNov, 2023

2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

tmn at #SMM4H 2023: Comparing Text Preprocessing Techniques for Detecting Tweets Self-reporting a COVID-19 Diagnosis

Anna Glazkova

TL;DR使用基于 Transformer 的多个模型对推文进行预处理，实现自动识别 COVID-19 诊断的推文，并获得高于平均值 4.1% 的 84.5% 的 F1 分数。

Abstract

The paper describes a system developed for Task 1 at smm4h 2023. The goal of the task is to automatically distinguish tweets that self-report a COVID-19 diagnosis (for example, a positive test, clinical diagnosis, or hospitalization) from those that do not. We investigate the use of di

smm4h 2023 covid-19 diagnosis preprocessing tweets transformer-based models f1-score

发现论文，激发创造

COVID-19 推文中立场和前提识别的数据和模型：来自社交媒体健康挖掘 (SMM4H) 2022 共享任务的洞见

通过收集推特上有关疫苗接种的数据，以不同的主题评估模型的性能，本研究旨在支持未来在健康领域的论证挖掘研究，采用各种策略来聚合带有主张的推文文本，包括从 SMM4H 2022 排名榜中的具有特征级（早期）融合和双视图架构的模型。

Nov, 2023

ThangDLU 在 #SMM4H 2024 的研究：用编码解码模型对儿童和青少年的社交障碍文本进行分类

本研究参与了 SMM4H 2024 研讨会的第 3 和第 5 任务，以解决推文数据中的分类挑战。通过使用预训练的编码器 - 解码器模型，如 BART-base 和 T5-small，利用迁移学习识别了给定推文的标签，并采用数据增强方法提高了模型性能。最终，在第 3 任务中获得了 0.627 的最佳 F1 分数，在第 5 任务中获得了 0.841 的最佳 F1 分数。

Apr, 2024

LT4SG@SMM4H24：利用预训练语言模型对儿童健康结果进行数字流行病学推断的推文分类

通过对英文推文中儿童医学疾病进行二分类，本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调，而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致，但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938，超过了基准分类器 1.18%。

Jun, 2024

基于 Transformer 的新冠病毒相关推文前提分类

本文提出了基于 Transformer 架构的预测模型，用于在 Twitter 文本中分类前提的存在，具有与其他 Transformer 模型相比更好的性能，并在 Twitter 数据集上取得了有竞争力的表现。

Sep, 2022

COVID-19 自诊断分类：BERT 和 LightGBM 模型

我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型（BERT）与 LightGBM 模型结合取得了最高的 f1 分数为 0.94，对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。

Jan, 2024

Constraint 2021: COVID-19 虚假新闻检测机器学习模型共享任务

本研究为 Constraint 2021 年 COVID-19 虚假新闻检测共享任务做出了贡献，提出了将经典机器学习算法与语言学特征相结合的方法，在数据预处理方面进行了多种尝试并得到了不错的结果。通过使用线性支持向量机算法，在测试数据上获得了 95.19% 的加权平均 F1 得分，名列排行榜第 80 位。

Jan, 2021

SMM4H 2023 中的探索者：通过知识和模型融合增强 BERT 在健康应用中的能力

本研究探讨了利用社交媒体中个人状态和意见来研究人类健康的方法，包括数据预处理、持续预训练和优化策略，特别是对于命名实体识别任务，我们使用了名为 W2NER 的模型架构以提高模型的泛化能力。我们的方法在任务 3 中获得第一名。

Dec, 2023

使用 R-drop 进行的文本增强以便进行自报 Covid-19 推文分类

该研究报告介绍了为 2023 年社交媒体挖掘健康共享任务创建的模型。我们的团队解决了第一个任务，即对自我报告 Covid-19 诊断的推文进行分类。我们的方法使用多样的文本增强和利用 R-drop 来增强数据并减少过拟合，提高模型效果。我们的领先模型通过使用 R-drop 和增强技术（如同义词替换、保留词和回译）超过了任务的平均分数和中位数。我们的系统在测试集上取得了令人印象深刻的 F1 分数为 0.877。

Nov, 2023

基于 BERT 模型的 COVID-19 相关推文的虚假新闻检测和情感分析

我们的团队 “techno” 参加了 CERIST'22 共享任务，利用自然语言处理工具和 BERT 预训练语言模型，对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务，并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。

Apr, 2023

使用多个 BERT 模型在推特中对自报家庭暴力进行分类

该论文介绍了我们在 SMM4H 2022 共享任务中对 Twitter 上的自我报告的亲密伴侣暴力进行分类的提交。该系统是由五个 RoBERTa 模型的集成组成，并通过其在验证数据集上的 F1 分数进行加权。这个系统的效果比基线提高了 13％，并成为这个共享任务中表现最好的系统。

Sep, 2022