EMNLPOct, 2023

基于连续词大小的音频令牌的生成式口语模型

TL;DR基于连续值音频嵌入的生成式口语语言模型(GSLM)通过引入词大小连续嵌入函数、对比损失和 k-NN 采样,取得了多样性和富有表现力的语言生成;该模型与离散单元 GSLM 在生成质量方面表现相当,同时内存效率提高了五倍;此外,词嵌入前后的嵌入具有音韵和语义解释性。