BriefGPT.xyz
Ask
alpha
关键词
audio and text data
搜索结果 - 3
使用预训练模型的自适应多语言语音识别
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
PDF
2 years ago
面向对话语音标点预测的多模态半监督学习框架
本研究探索一种多模态半监督学习方法,通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明,使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9%和 3-4%的绝对改
→
PDF
4 years ago
利用语音和文本的多模态语音情感识别
本文提出了一种深度双重循环编码器模型,利用语音和文本数据进行机器情感识别,该模型表现更优,实验结果显示,当将该模型应用于 IEMOCAP 数据集时,在将数据分配到四个情感类别(愤怒,高兴,悲伤和中性)方面,准确率在 68.8%至 71.8%
→
PDF
6 years ago
Prev
Next