Jun, 2024
如何从自监督模型中提取离散音频标记?
How Should We Extract Discrete Audio Tokens from Self-Supervised Models?
Pooneh Mousavi, Jarod Duret, Salah Zaiem, Luca Della Libera, Artem Ploujnikov...
TL;DR这篇论文探讨了语义标记的最佳配置,提出了训练通用声码器的可扩展解决方案,并使用注意机制来提高语义标记在多种音频应用中的适应性和性能。