CheckThat! 实验室 2022 年:推文文本的可信度标识
本文研究如何使用现有数据集训练 Twitter 消息的不同语言的验证价值模型。通过使用多语言 BERT 模型,我们系统地比较了六种方法。结果表明,对于一些语言对,零 - shot 跨语言转移是可能的,并且可以与在目标语言上训练的单语模型一样好。
Nov, 2022
本研究提出了一种检测关于 COVID-19 的应该检查的推文的模型,将深度上下文化文本表示与建模推文的社交背景相结合,以帮助应对社交媒体上的虚假信息和广泛传播的假新闻的问题。
Sep, 2020
本文提出了一种新颖的方法来检测多模态推文中的可检查性,它利用了两个分类器,每个分类器都是在单个模态上进行培训,其中,对于图像数据,使用 OCR 分析提取嵌入式文本表现最佳,并通过组合两个分类器在 CheckThat! 2023 任务 1A 上实现了 F1 得分 0.7297,成为本项比赛的第一名。
Jul, 2023
在线社交媒体平台的扩展导致了在线内容消费的激增,但也为传播虚假主张和错误信息铺平了道路。因此,需求不断扩大,需要大量的人力来筛选和验证这些未经验证的声明。虽然这些声明目前由事实核查员手动验证,但是在线内容的数量常常超过他们的能力范围,使得他们无法及时验证每一个声明。因此,至关重要的是确定哪些主张值得进行事实核查,并优先处理需要立即关注的主张。多个因素有助于判断一个主张是否需要进行事实核查,这些因素包括其事实上的准确性、对公众的潜在影响、煽动仇恨的可能性等等。尽管已经有多个努力来解决主张的核查价值问题,但是系统性地识别这些因素仍然是一个尚未解决的挑战。为此,我们引入了一个新的任务,即细粒度的主张核查价值,它基于所有这些因素,并为识别一个主张是否值得核查提供了可能的人类依据。我们介绍了一个手动注释的大规模 Twitter 数据集 CheckIt,用于细粒度的主张核查价值。我们将我们的数据集与一个统一的方法 CheckMate 进行了基准测试,该方法同时确定一个主张是否值得核查以及导致这种结论的因素。我们将我们提出的系统与几个基准系统进行了比较。最后,我们报告了对结果的彻底分析和人员评估,验证了将核查价值因素整合到检测值得进行事实核查的主张中的有效性。
Sep, 2023
本研究使用多语言变换器模型和嵌入技术(如 XLM-RoBERTa、LaBSE 和 SBERT 等)自动寻找社交媒体帖子(推文)中已经被事实检查过的主张。在不同语言设置中,我们进行了分类和检索实验,并取得了令人满意的结果。我们也发现处理不同语言时存在一些 NLP 挑战,并为未来的研究提供了一个新的事实检查和相应推文的数据集。
Feb, 2022
应用八个突出的开源语言模型(LLMs)通过精调和提示工程来从政治转录中识别值得检查的陈述,并通过两步数据修剪方法自动识别高质量训练数据实例,能够在 CheckThat!2024 的英语语言数据集方面展示有效学习和竞争性性能。
Jun, 2024
本研究介绍了第三届 CheckThat! Lab 的概述,该实验室包括五个任务,分别在英语和阿拉伯语中完成。实验室提供的数据集和评估脚本使得进一步的研究变得更加容易,而大部分团队使用基于 BERT、LSTMs 或 CNNs 的深度神经网络,在所有任务上都实现了相当大的提高。
Jul, 2020
该研究展示了 CLEF-2018 CheckThat!自动识别和验证政治宣言的实验室概述,其中的任务 1 集中在值得检查的问题上;任务的目标是根据是否值得检查,生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法;最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。
Aug, 2018
本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化,提出了 AraCWA 模型来减轻跨主题检测具有检查价值权利要求时的性能下降,该模型通过少量学习和数据增强来为新的主题提高性能,并使用公开数据集的阿拉伯语推文,为不同的主题证明了文章提出的数据增强策略取得了显著的改进。
Dec, 2022
该研究介绍了第三版的 CheckThat! 实验室,该实验室是 2020 年跨语言评估论坛(CLEF)的一部分,并在英语,阿拉伯语和西班牙语中提供四个任务,还提供了与先前实验室版本相关的任务。CheckThat! 实验室提供完整的评估框架,使用平均精度(MAP)或 rank k 准确率来评估排名任务,并使用 F1 来评估分类任务。
Jan, 2020