基于 Transformer 的新冠病毒相关推文前提分类
通过收集推特上有关疫苗接种的数据,以不同的主题评估模型的性能,本研究旨在支持未来在健康领域的论证挖掘研究,采用各种策略来聚合带有主张的推文文本,包括从 SMM4H 2022 排名榜中的具有特征级(早期)融合和双视图架构的模型。
Nov, 2023
本文介绍了我们提交的 WNUT-2020 任务 2 的成果:识别信息量大的 COVID-19 英文推文的半监督学习转换器集成模型,它在测试集上取得了 0.9011 的 F1 值(排名第 7),与使用 FastText 嵌入的基准系统相比表现显著提高。
Sep, 2020
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 10-30%,特别是在 COVID-19 内容(尤其是来自 Twitter 的社交媒体帖子)的分类中表现更突出,从而实现了优化。该模型可以用于文本分类、问答和聊天机器人等自然语言处理任务。
May, 2020
本文报告了一种基于 Transformer 模型(BERT、ALBERT 和 XLNET)的方法来分析 COVID-19 流行病期间社交媒体上共享信息的可靠性,以便快速检测假新闻,减少假信息的传播,该方法在 ConstraintAI 2021 共享任务 COVID19 Fake News Detection in English 中获得了 0.9855 的 f1 值,排名第 5。
Jan, 2021
研究者通过设计和应用不同的机器学习模型,在探测虚假新闻方面取得了进展,但现有研究对于快速变化的主题和领域特定词汇的虚假新闻重视不够。本文提出了在特定与 COVID-19 相关主题中进行三项虚假新闻检测任务的方法和结果,并试验了一组基于文本的模型,包括支持向量机、随机森林、BERT 和 RoBERTa。发现预训练转换器可以产生最佳的验证结果,但经过智能设计的随机初始化转换器也可以训练达到接近预训练转换器的准确度。
May, 2022
为了在新冠疫情期间快速检测和减轻假新闻的传播,我们开发了一种基于机器学习自然语言处理模型的两阶段自动化检测流程来检测 COVID-19 假新闻,其中第一模型利用了基于事实检查的算法,通过检索特定 COVID-19 索赔的相关事实,第二模型通过计算索赔和手动策划的 COVID-19 数据集中检索到的真实事实之间的文本蕴含程度来验证索赔的真实程度。
Nov, 2020
本文提出了一种基于变压器的语言模型微调方法,用于检测 COVID-19 假新闻,该方法通过扩展专业短语的语义,适应热身 softmax 损失以区分硬挖掘样本,并通过对抗性训练提高模型的鲁棒性,采用 RoBERTa 和领域专用模型 CT-BERT 提取预测特征,并由一个多层感知器融合细粒度和高级别的特定表示。经 COVID-19 假新闻数据集评估,实验结果在各种评估指标上都表现优越,最好的加权平均 F1 得分为 99.02%。
Jan, 2021
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023
该研究利用基于转换器的五种模型 (BERT、BERT without LSTM、ALBERT、RoBERTa 和 BERT & ALBERT 混合) 对 COVID 19 虚假新闻进行比较分析,其中 RoBERTa 模型在真假两类中均获得 0.98 的 F1 得分,相比其他模型表现更佳。
Aug, 2022
使用在大规模的 Twitter 语料库上预训练并在我们任务上进行微调的基于注意力机制的 BERT 架构,有效地进行对社交媒体对话中的个人攻击和逻辑偏离行为的预测,此模型相较于我们作为基准所使用的 LSTM 模型表现出明显的优势。此外,通过综合过采样技术,可在相对较小的新颖数据集上进行微调,并减轻过度拟合问题。通过引入基于 Transformer 的模型,使该研究为预测 Twitter 上对话事件的实用工具奠定基础,以鼓励更好地互动在最普遍的社交媒体平台之一。
Nov, 2023