Feb, 2022

HTS-AT:一种用于声音分类和检测的层次化 Token - 语义音频变换器

TL;DR本文介绍了一种采用分层结构和分词 - 语义模块的音频 Transformer 模型 HTS-AT,实现了音频分类和事件本地化的任务,并在三个数据集上取得了 SOTA 结果。相比于以往的音频 Transformer,HTS-AT 拥有更小的模型参数和更短的训练时间。