ACLFeb, 2024

利用大规模跨语言模型在不同维度之间确定音频录音之间的相似程度

TL;DR在低资源语言研究的高度受限背景中,我们探讨了预训练模型的语音向量表示,以确定其相对于音频信号的抽象程度。我们提出了一种新的无监督方法,利用精心策划的元数据在音频录音上进行 ABX 测试,以揭示这些表示所包含的信息类型。通过三个实验,验证了从具有不同语言 / 非语言特征的录音中提取的表示在相同方面上的差异。将更多音频信号嵌入一个向量中可以更好地区分非语言特征,而较短的片段则更好地区分分段信息。该方法完全无监督,有可能为对少有文献的语言进行比较研究开辟新的研究方向。