Sep, 2023

音频对齐:使用高效多序列对齐评估和可视化基于文本的日识别(扩展版)

TL;DR本文提出了一种新颖的评估方法,用于基于文本的发言人分离,克服了传统度量标准在文本中不考虑任何上下文信息的局限性。我们提出了两个新的度量标准,即基于文本的分离错误率和分离 F1 值,通过对参考和假设转录中的标记进行对齐,进行话语和单词级别的评估。我们的度量标准涵盖了更多类型的错误,相比现有的度量标准,可以进行更全面的发言人分离分析。为了对齐标记,引入了一种多序列对齐算法,支持参考序列中的多个序列,同时使用动态规划处理假设中的高维对齐。我们的工作打包为两个工具,align4d 提供用于对齐算法的 API,TranscribeView 用于可视化和评估发言人分离错误,这可以极大地帮助创建高质量的数据,促进对话系统的发展。