生物医学 Twitter 帖子中的索赔检测
社交媒体上可能会传播强调社会识别因素与疾病之间误导性相关性的医疗声明,而不考虑健康的结构性决定因素。我们的研究旨在识别 Twitter 上的偏见医疗声明并测量它们的传播程度。我们提出了一个机器学习框架,使用 RoBERTa 模型检测医疗声明,使用 DistilBERT 模型分类偏见。在识别出原始的有偏见医疗声明后,我们进行了转推级联分析,计算它们的个体传播范围和传播速率。我们发现,包含偏见声明的推文传播得比无偏见声明的更快、更远。
Dec, 2023
为使社交媒体上的用户生成内容可以通过现有模型进行事实核查,本文提出了一种利用关联实体信息来压缩含有主题实体、关系和客体实体三元组成的声明式陈述或提取最短包含这些元素的短语的方法,其可提高各种验证模型的性能。
Sep, 2022
本文提出了 Claim Span Identification (CSI) 任务并引入了名为 CURT 的大规模 Twitter 语料库,通过基于 RoBERTa 的适配器 DABERTa 进行实验来对其数据进行基准测试,并提供了细致的误差分析和消融研究来验证该模型的性能,并提供了全面的跨度注释指南以供公共使用。
Oct, 2022
本文介绍 CoVERT,它是一个经过事实核查的推文语料库,旨在提供关于 COVID-19 与生物医学相关的 (不实) 信息。该数据集由 300 个推文组成,每个推文均配有医学命名实体及其关系标注,使用一种新颖的众包方法对推文进行标注以及提供支持证据。
Apr, 2022
本文介绍了手工注释的一组含有 10,000 条推特的语料库,内容包括 COVID-19 相关的正反测试结果、死亡、拒绝测试、声称的治疗和预防措施等五类事件。这篇文章证明了这个语料库可以支持基于 BERT 的分类器的微调,以自动提取公共报告的事件,并帮助追踪新病毒传播。通过从数百万推文中提取事件,我们还展示了对于复杂问题的高准确度的唯一回答。我们将向研究界公开发布我们的语料库(已移除用户信息)、自动提取模型和相应的知识库。
Jun, 2020
本研究使用多语言变换器模型和嵌入技术(如 XLM-RoBERTa、LaBSE 和 SBERT 等)自动寻找社交媒体帖子(推文)中已经被事实检查过的主张。在不同语言设置中,我们进行了分类和检索实验,并取得了令人满意的结果。我们也发现处理不同语言时存在一些 NLP 挑战,并为未来的研究提供了一个新的事实检查和相应推文的数据集。
Feb, 2022
本文提出了一种基于深度学习模型的关于推特上有关癌症信息失实的自动检测方法,并通过语言学分析比较了信息失实和真实信息的差异,以期提供有关社交方面的相关见解。
Mar, 2020
本研究介绍 CovidMis20 数据集,该数据集收集了从 2020 年 2 月到 7 月期间 1,375,592 条推文,用于利用基于深度学习的 Bi-LSTM 和集成 CNN + Bi-GRU 的方法进行假新闻检测,后者的测试精度优于前者。
Sep, 2022
我们的团队 “techno” 参加了 CERIST'22 共享任务,利用自然语言处理工具和 BERT 预训练语言模型,对与 COVID-19 疫情有关的 4128 个推文进行了情感分析和 8661 个推文进行了虚假新闻检测任务,并获得了情感分析任务 0.93 的准确度和虚假新闻检测任务 0.90 的准确度。
Apr, 2023