BriefGPT.xyz
大模型
Ask
alpha
关键词
speech interaction
搜索结果 - 1
VATLM:基于联合掩码预测的视听文字预训练方法,用于语音表示学习
本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任
→
PDF
2 years ago
Prev
Next