使用 R-drop 进行的文本增强以便进行自报 Covid-19 推文分类

MMNov, 2023

使用 R-drop 进行的文本增强以便进行自报 Covid-19 推文分类

Text Augmentations with R-drop for Classification of Tweets Self Reporting Covid-19

Sumam Francis, Marie-Francine Moens

TL;DR该研究报告介绍了为 2023 年社交媒体挖掘健康共享任务创建的模型。我们的团队解决了第一个任务，即对自我报告 Covid-19 诊断的推文进行分类。我们的方法使用多样的文本增强和利用 R-drop 来增强数据并减少过拟合，提高模型效果。我们的领先模型通过使用 R-drop 和增强技术（如同义词替换、保留词和回译）超过了任务的平均分数和中位数。我们的系统在测试集上取得了令人印象深刻的 F1 分数为 0.877。

Abstract

This paper presents models created for the social media mining for Health 2023 shared task. Our team addressed the first task, classifying tweets that self-report covid-19 diagnosis. Our approach involves a

social media mining health 2023 covid-19 diagnosis classification model r-drop

发现论文，激发创造

通过自我增强和对比学习提高社交媒体文本中的疾病检测

该研究提出了一种新的方法，将对比学习与语言模型相结合，通过自我增强方法改进模型的表示，并在与各种疾病相关的社交媒体数据集上取得了显著的改进。

Apr, 2024

2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

使用基于 Transformer 的多个模型对推文进行预处理，实现自动识别 COVID-19 诊断的推文，并获得高于平均值 4.1% 的 84.5% 的 F1 分数。

Nov, 2023

EdinburghNLP 在 WNUT-2020 任务 2 中的表现：利用通用数据增强和 Transformer 模型鉴别 COVID-19 推文中的信息量

本文介绍了我们提交的 WNUT-2020 任务 2 的成果：识别信息量大的 COVID-19 英文推文的半监督学习转换器集成模型，它在测试集上取得了 0.9011 的 F1 值（排名第 7），与使用 FastText 嵌入的基准系统相比表现显著提高。

Sep, 2020

Constraint 2021: COVID-19 虚假新闻检测机器学习模型共享任务

本研究为 Constraint 2021 年 COVID-19 虚假新闻检测共享任务做出了贡献，提出了将经典机器学习算法与语言学特征相结合的方法，在数据预处理方面进行了多种尝试并得到了不错的结果。通过使用线性支持向量机算法，在测试数据上获得了 95.19% 的加权平均 F1 得分，名列排行榜第 80 位。

Jan, 2021

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

基于 BERT 模型的 COVID-19 相关推文的虚假新闻检测和情感分析

我们的团队 “techno” 参加了 CERIST'22 共享任务，利用自然语言处理工具和 BERT 预训练语言模型，对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务，并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。

Apr, 2023

COVIDHealth: 一个基于 Twitter 的数据集和基于机器学习的网络应用程序，用于分类 COVID-19 讨论

开发了基于机器学习的网络应用程序，用于自动分类社交媒体上的 COVID-19 相关讨论，并提供了用于分类的基准结果。

Feb, 2024

利用大型语言模型和弱监督进行社交媒体数据标注：使用 COVID-19 自报疫苗推文进行评估

本研究评估了使用大型语言模型（例如 GPT-4）和弱监督来识别 COVID-19 疫苗相关的推文，以与人工注释者的性能进行比较。通过手动筛选的黄金标准数据集，利用 GPT-4 在无须额外微调或指示的情况下提供标签，在单次模式下进行分析。

Sep, 2023

COVID-19 自诊断分类：BERT 和 LightGBM 模型

我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型（BERT）与 LightGBM 模型结合取得了最高的 f1 分数为 0.94，对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。

Jan, 2024

利用社交媒体帖子的无监督嵌入聚类预测 COVID-19 病例负载

通过追踪特定美国州 COVID-19 子版块 Reddit 帖子的句子级表示的高密度聚类，我们将基于转换器的语言模型纳入了传染病建模中，并在许多高质量数据集中进行基准测试。结果表明，除了其他特征类型之外，这些聚类嵌入特征在预测传染病上升趋势信号方面表现最好，对于流行病学数据不可靠的领域具有重要意义。随后，在时间序列预测任务中，我们充分利用了以上模型的预测能力，并比较了使用不同补充数据集作为协变量特征集时，基于转换器的时间序列模型的相对优势。

May, 2022