Jun, 2024

自监督模型与人类中的演讲者身份编码评估

TL;DR自我监督表示与声音识别中的说话人身份有关,并能更好地理解强大网络中不同层次的声学信息表示,通过评估声学、语音、韵律和语言变体之间的说话人识别准确性,对比模型和人类的编码空间相似性,旨在挑战距离度量作为说话人接近程度的代理,并展示某些模型能够预测自然刺激下听觉和语言区域的脑部反应。