Aug, 2024

WavTokenizer:高效的音频离散编码器标记器

TL;DR本研究解决了音频领域高维自然信号压缩不足的问题。WavTokenizer通过设计更广泛的VQ空间、扩展上下文窗口和改进的注意力网络,实现了极高的压缩效率和卓越的重建质量,其一秒的24kHz音频仅需40或75个标记。研究结果显示,该模型在音频重建中表现优异,提升了语义信息的丰富性,具有显著的潜在应用价值。