IJCAIOct, 2023

在多模数据融合中进行长音频采访与问题的时间对齐:一个案例研究

TL;DR我们提出了一种名为 INDENT 的模型,利用交叉注意力模型和句子的时间顺序先验信息学习语音嵌入,从而在长篇音频记录中根据文本查询定位问题的位置。该模型在文本查询中相较于基于启发式方法的模型显著提高了有效性(R-avg 提高了约 3%),并且演示了使用印度语音的噪声 ASR 在替代语音方面取得更好结果的情况。我们的模型只使用了印地语数据进行训练,但可以涵盖所有由(语义上)共享文本空间支持的语言,在 11 种印度语言上进行了实证研究。