利用音频数据检测政治辩论、演讲和采访中值得核查的说法

May, 2023

利用音频数据检测政治辩论、演讲和采访中值得核查的说法

Detecting Check-Worthy Claims in Political Debates, Speeches, and Interviews Using Audio Data

Petar Ivanov, Ivan Koychev, Momchil Hardalov, Preslav Nakov

TL;DR本文介绍了一种新的多模态数据集（包含英语文本和音频），用于检测清楚性主张的工具，并且结果表明，使用音频信号作为信息源可以提高检测的准确率，同时也解决了单个发言者问题。

Abstract

A large portion of society united around the same vision and ideas carries enormous energy. That is precisely what political figures would like to accumulate for their cause. With this goal in mind, they can sometimes resort to distorting or hiding the truth, unintentionally or on purpose, which opens the door for →

check-worthy claims misinformation multimodal dataset audio signal fact-checking

发现论文，激发创造

使用声学和文本特征检测政治辩论中的欺骗行为

本研究利用真实的政治辩论语音数据集，采用多模态深度学习架构进行欺诈检测以提升检测准确度。实验结果表明，使用语音特征可以有效提高欺诈检测的表现，并将数据集公开以期推进多模态欺诈检测的研究。

Oct, 2019

自动事实核查中的跨主题值得核实声明检测

本文针对不同主题下识别值得检查的权利要求的挑战进行了评估和量化，提出了 AraCWA 模型来减轻跨主题检测具有检查价值权利要求时的性能下降，该模型通过少量学习和数据增强来为新的主题提高性能，并使用公开数据集的阿拉伯语推文，为不同的主题证明了文章提出的数据增强策略取得了显著的改进。

Dec, 2022

CLEF-2018 CheckThat！关于政治主张自动识别和验证的实验室概述。任务 1：值得核查性

该研究展示了 CLEF-2018 CheckThat！自动识别和验证政治宣言的实验室概述，其中的任务 1 集中在值得检查的问题上；任务的目标是根据是否值得检查，生成一个关于陈述句的排序列表。最成功的方法包括使用多层神经网络和基于分布式表示的组合方法；最佳系统在英文和阿拉伯文测试数据集上的平均精度分别为 0.18 和 0.15。

Aug, 2018

Fraunhofer SIT 在 CheckThat! 2023 中：混合单模分类器以估计多模态推文的可信度

本文提出了一种新颖的方法来检测多模态推文中的可检查性，它利用了两个分类器，每个分类器都是在单个模态上进行培训，其中，对于图像数据，使用 OCR 分析提取嵌入式文本表现最佳，并通过组合两个分类器在 CheckThat! 2023 任务 1A 上实现了 F1 得分 0.7297，成为本项比赛的第一名。

Jul, 2023

使用上下文和语篇信息进行自动事实检查

本文研究了自动事实检查的问题，关注上下文和语篇信息的影响。研究并解决了两个相关任务：检测与检查有关的声明以及检查有关的声明。开发了基于神经网络、基于内核的支持向量机和两者组合的监督系统，在输入表示方面使用了丰富的话语线索和上下文特征。从政治辩论中着重关注可检查性估计任务，并在辩论的整个干预、前面和后续转变的语境中对目标声明进行建模，考虑语境元信息。从社区论坛中关注答案验证的事实检查任务，并将答案的真实性与其所在的整个问题 - 答案线程以及来自整个论坛的其他相关帖子的真实性进行建模。我们为两个任务开发了注释数据集，并进行了广泛的实验评估，确认两种信息 (尤其是上下文特征) 发挥重要作用。

Aug, 2019

跨文本、音频和视频的政治 Deepfakes 人类检测

研究表明，人们对于真实和伪造的政治演讲的辨别能力更多地依赖于音频和视觉线索，而并非演讲内容本身。然而，反思性推理能力会调节参与者对视觉线索的考虑程度，反应出低反思性推理能力与过度依赖演讲内容的趋势。

Feb, 2022

CheckThat! 2024 中的事实查找者：通过数据修剪改善 LLMs 的适用于检查的陈述检测

应用八个突出的开源语言模型（LLMs）通过精调和提示工程来从政治转录中识别值得检查的陈述，并通过两步数据修剪方法自动识别高质量训练数据实例，能够在 CheckThat！2024 的英语语言数据集方面展示有效学习和竞争性性能。

Jun, 2024

基于投票的多模态自动欺诈检测

采用多模态投票型方法，利用图像、声音和语言特征进行自动欺骗检测，实验结果表明该方法优于现有技术。

Jun, 2023

多模态信念预测

识别说话者对信仰的承诺水平是一项困难的任务；我们是第一个推断多模态信仰预测任务并展示结果的研究，使用了包含对齐文本和音频的说话者信仰标注的 CB-Prosody 语料库（CBP）；我们报告了使用声学 - 韵律特征和传统机器学习方法的基线和显著特征；我们还提出了基于 BERT 和 Whisper 的 CBP 语料库微调的文本和音频基线；最后，我们提出了使用 BERT 和 Whisper 的多模态架构，并使用多种融合方法，改善了单独的模态。

Jun, 2024

有效驳斥：利用语料库范围主张挖掘的听力理解

本文提出使用自动挖掘新闻文章中的争议性观点，在辩论中寻找其对应的观点，并通过对英文辩论的 400 次演讲分析，证明了这种方法的可行性，并提供了基础的检测措施，所有数据均可供研究者免费使用。

Jul, 2019