Sep, 2023

使用 Transformer 网络进行自动蝙蝠呼叫分类

TL;DR通过合成多物种录音并将多种蝙蝠呼叫合并到一个录音中,我们提出了一种变压器架构用于多标签分类,该方法在实时分类场景中具有潜在应用,单一物种准确率达到 88.92%(F1 分数 84.23%),多物种宏 F1 分数达到 74.40%。相比于三个其他工具在独立和公开可用的数据集 ChiroVox 上,我们的模型单一物种分类准确率至少提高 25.82%,多物种分类宏 F1 分数至少提高 6.9%。