Jun, 2024

假造对话划分:部分假剧音频中的 “谁在假造何时

TL;DR这篇研究定义了 Spoof Diarization 作为 Partial Spoof (PS) 情景下的一项新任务,旨在确定什么时候进行了欺骗行为,包括定位欺骗区域,并根据不同的欺骗方法进行聚类。作为 Spoof Diarization 领域的一项开创性研究,我们专注于定义任务、建立评估指标,并提出了一种基准模型,即 Countermeasure-Condition Clustering (3C) 模型。利用这个模型,我们首先探索了如何有效地训练反欺骗措施以支持 Spoof Diarization,使用了三种标签方案。然后,我们利用欺骗定位预测来提高对话划分的性能。这项研究首次揭示了这个任务的高复杂性,即使在仅考虑每个音频文件只有一个说话者和一个模拟方法的受限场景中也是如此。我们的代码可以在此 https URL 处获取。