利用音频数据检测政治辩论、演讲和采访中值得核查的说法
本研究利用真实的政治辩论语音数据集,采用多模态深度学习架构进行欺诈检测以提升检测准确度。实验结果表明,使用语音特征可以有效提高欺诈检测的表现,并将数据集公开以期推进多模态欺诈检测的研究。
Oct, 2019
本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化,提出了 AraCWA 模型来减轻跨主题检测具有检查价值权利要求时的性能下降,该模型通过少量学习和数据增强来为新的主题提高性能,并使用公开数据集的阿拉伯语推文,为不同的主题证明了文章提出的数据增强策略取得了显著的改进。
Dec, 2022
该研究展示了 CLEF-2018 CheckThat!自动识别和验证政治宣言的实验室概述,其中的任务 1 集中在值得检查的问题上;任务的目标是根据是否值得检查,生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法;最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。
Aug, 2018
本文提出了一种新颖的方法来检测多模态推文中的可检查性,它利用了两个分类器,每个分类器都是在单个模态上进行培训,其中,对于图像数据,使用 OCR 分析提取嵌入式文本表现最佳,并通过组合两个分类器在 CheckThat! 2023 任务 1A 上实现了 F1 得分 0.7297,成为本项比赛的第一名。
Jul, 2023
本文研究了自动事实检查的问题,关注上下文和语篇信息的影响。研究并解决了两个相关任务:检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统,在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务,并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模,考虑语境元信息。从社区论坛中关注答案验证的事实检查任务,并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集,并进行了广泛的实验评估,确认两种信息 (尤其是上下文特征) 发挥重要作用。
Aug, 2019
研究表明,人们对于真实和伪造的政治演讲的辨别能力更多地依赖于音频和视觉线索,而并非演讲内容本身。然而,反思性推理能力会调节参与者对视觉线索的考虑程度,反应出低反思性推理能力与过度依赖演讲内容的趋势。
Feb, 2022
应用八个突出的开源语言模型(LLMs)通过精调和提示工程来从政治转录中识别值得检查的陈述,并通过两步数据修剪方法自动识别高质量训练数据实例,能够在 CheckThat!2024 的英语语言数据集方面展示有效学习和竞争性性能。
Jun, 2024
识别说话者对信仰的承诺水平是一项困难的任务;我们是第一个推断多模态信仰预测任务并展示结果的研究,使用了包含对齐文本和音频的说话者信仰标注的 CB-Prosody 语料库(CBP);我们报告了使用声学 - 韵律特征和传统机器学习方法的基线和显著特征;我们还提出了基于 BERT 和 Whisper 的 CBP 语料库微调的文本和音频基线;最后,我们提出了使用 BERT 和 Whisper 的多模态架构,并使用多种融合方法,改善了单独的模态。
Jun, 2024
本文提出使用自动挖掘新闻文章中的争议性观点,在辩论中寻找其对应的观点,并通过对英文辩论的 400 次演讲分析,证明了这种方法的可行性,并提供了基础的检测措施,所有数据均可供研究者免费使用。
Jul, 2019