LT4SG@SMM4H24：利用预训练语言模型对儿童健康结果进行数字流行病学推断的推文分类

Jun, 2024

LT4SG@SMM4H24：利用预训练语言模型对儿童健康结果进行数字流行病学推断的推文分类

LT4SG@SMM4H24: Tweets Classification for Digital Epidemiology of Childhood Health Outcomes Using Pre-Trained Language Models

PDF

Dasun Athukoralage, Thushari Atapattu, Menasha Thilakaratne, Katrina Falkner

TL;DR通过对英文推文中儿童医学疾病进行二分类，本文介绍了我们在 SMM4H24 共享任务 5 中的方法。第一种方法是对一个 RoBERTa-large 模型进行微调，而第二种方法则是对三个微调的 BERTweet-large 模型结果进行集成。我们证明尽管两种方法在验证数据上表现一致，但 BERTweet-large 集成模型在测试数据上表现出色。我们最佳的系统在测试数据上的 F1 分数达到了 0.938，超过了基准分类器 1.18%。

Abstract

This paper presents our approaches for the smm4h24 shared task 5 on the binary classification of english tweets reporting →

smm4h24 shared task 5 binary classification english tweets children's medical disorders bert models

发现论文，激发创造

ThangDLU 在 #SMM4H 2024 的研究：用编码解码模型对儿童和青少年的社交障碍文本进行分类

本研究参与了 SMM4H 2024 研讨会的第 3 和第 5 任务，以解决推文数据中的分类挑战。通过使用预训练的编码器 - 解码器模型，如 BART-base 和 T5-small，利用迁移学习识别了给定推文的标签，并采用数据增强方法提高了模型性能。最终，在第 3 任务中获得了 0.627 的最佳 F1 分数，在第 5 任务中获得了 0.841 的最佳 F1 分数。

Apr, 2024

COVID-19 自诊断分类：BERT 和 LightGBM 模型

我们在 SMMH4-23 的共享任务 1 和 4 中通过使用 Transformer 模型（BERT）与 LightGBM 模型结合取得了最高的 f1 分数为 0.94，对英文推文进行 COVID-19 诊断的二元分类以及对英文 Reddit 帖子进行社交焦虑症诊断的二元分类。

Jan, 2024

2023 年 #SMM4H 会议上比较文本预处理技术用于检测自报 COVID-19 诊断的推文

使用基于 Transformer 的多个模型对推文进行预处理，实现自动识别 COVID-19 诊断的推文，并获得高于平均值 4.1% 的 84.5% 的 F1 分数。

Nov, 2023

MaNLP@SMM4H22: 用 BERT 对推特帖子进行分类

本研究介绍了一种基于社交媒体挖掘的方法，用于对生日推文进行分类并区分精确年龄和非精确年龄，采用不同的文本预处理进行了两次提交并获得了 SMM4H 组织者评估的 0.80 和 0.81 的 F1 值。

Dec, 2022

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

基于 BERT 模型的 COVID-19 相关推文的虚假新闻检测和情感分析

我们的团队 “techno” 参加了 CERIST'22 共享任务，利用自然语言处理工具和 BERT 预训练语言模型，对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务，并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。

Apr, 2023

使用 BERT 对具有信息价值的 COVID-19 推文进行分类的 WNUT-2020 任务 2 的 Dartmouth CS

该篇论文描述了在 WNUT-2020 共享任务 2 中开发的针对 COVID-19 英文推文信息识别的系统。研究者团队利用 BERT 模型进行了文本分类任务，并且通过对 BERT 模型的微调以及将其嵌入特征与推文特定特征连接后再采用支持向量机（SVM）进行训练（即 BERT +），并与一组机器学习模型进行性能比较。结果表明 BERT + 模型在 F1-score 评估指标上得分最高为 0.8713。

Dec, 2020

使用多个 BERT 模型在推特中对自报家庭暴力进行分类

该论文介绍了我们在 SMM4H 2022 共享任务中对 Twitter 上的自我报告的亲密伴侣暴力进行分类的提交。该系统是由五个 RoBERTa 模型的集成组成，并通过其在验证数据集上的 F1 分数进行加权。这个系统的效果比基线提高了 13％，并成为这个共享任务中表现最好的系统。

Sep, 2022

BERTweet: 英文推文的预训练语言模型

BERTweet 是第一个用于英语推文的公共大规模预训练语言模型，通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型，可用于推文文本的各种任务。

May, 2020

WNUT-2020 任务 2: 使用集成和对抗训练稳健地识别有价值的 COVID-19 推文的 NutCracker

使用 COVID-Twitter-BERT 和 RoBERTa 模型实验性地识别 COVID-19 推文，进一步实验了对抗性训练，使我们的模型更加稳健，模型集成达到了 WNUT-2020 任务 2 测试数据中的 0.9096 的 F1 得分，并在排行榜上排名第一，对抗性训练的模型集成也产生了类似的结果。

Oct, 2020