2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文
通过收集推特上有关疫苗接种的数据,以不同的主题评估模型的性能,本研究旨在支持未来在健康领域的论证挖掘研究,采用各种策略来聚合带有主张的推文文本,包括从 SMM4H 2022 排名榜中的具有特征级(早期)融合和双视图架构的模型。
Nov, 2023
本研究参与了 SMM4H 2024 研讨会的第 3 和第 5 任务,以解决推文数据中的分类挑战。通过使用预训练的编码器 - 解码器模型,如 BART-base 和 T5-small,利用迁移学习识别了给定推文的标签,并采用数据增强方法提高了模型性能。最终,在第 3 任务中获得了 0.627 的最佳 F1 分数,在第 5 任务中获得了 0.841 的最佳 F1 分数。
Apr, 2024
通过对英文推文中儿童医学疾病进行二分类,本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调,而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致,但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938,超过了基准分类器 1.18%。
Jun, 2024
本文提出了基于 Transformer 架构的预测模型,用于在 Twitter 文本中分类前提的存在,具有与其他 Transformer 模型相比更好的性能,并在 Twitter 数据集上取得了有竞争力的表现。
Sep, 2022
我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型(BERT)与 LightGBM 模型结合取得了最高的 f1 分数为 0.94,对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。
Jan, 2024
本研究为 Constraint 2021 年 COVID-19 虚假新闻检测共享任务做出了贡献,提出了将经典机器学习算法与语言学特征相结合的方法,在数据预处理方面进行了多种尝试并得到了不错的结果。通过使用线性支持向量机算法,在测试数据上获得了 95.19% 的加权平均 F1 得分,名列排行榜第 80 位。
Jan, 2021
本研究探讨了利用社交媒体中个人状态和意见来研究人类健康的方法,包括数据预处理、持续预训练和优化策略,特别是对于命名实体识别任务,我们使用了名为 W2NER 的模型架构以提高模型的泛化能力。我们的方法在任务 3 中获得第一名。
Dec, 2023
该研究报告介绍了为 2023 年社交媒体挖掘健康共享任务创建的模型。我们的团队解决了第一个任务,即对自我报告 Covid-19 诊断的推文进行分类。我们的方法使用多样的文本增强和利用 R-drop 来增强数据并减少过拟合,提高模型效果。我们的领先模型通过使用 R-drop 和增强技术(如同义词替换、保留词和回译)超过了任务的平均分数和中位数。我们的系统在测试集上取得了令人印象深刻的 F1 分数为 0.877。
Nov, 2023
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
该论文介绍了我们在 SMM4H 2022 共享任务中对 Twitter 上的自我报告的亲密伴侣暴力进行分类的提交。该系统是由五个 RoBERTa 模型的集成组成,并通过其在验证数据集上的 F1 分数进行加权。这个系统的效果比基线提高了 13%,并成为这个共享任务中表现最好的系统。
Sep, 2022