Jun, 2024

利用基于音频 - 文本变换的智能鉴别方法进行恭维检测的论文

TL;DR通过一个包含 20 小时语音的新型音频文本数据集,我们采用预训练的 AST、Wav2Vec2 和 Whisper 模型以及 Whisper TTS 模型结合 RoBERTa 文本分类器,建立一个多模态分类器,实现对赞美的自动检测,从而增强人工智能与人类之间的自然交流。在未见过的测试数据上进行评估,取得了令人满意的结果,仅使用音频的实验中,不加权平均召回率达到 82.46%,仅使用文本的实验中达到 85.97%,多模态方法达到 87.16%。