BriefGPT.xyz
Ask
alpha
关键词
inter-modal contrastive learning
搜索结果 - 1
FLAP:快速语言音频预训练
我们提出了快速语音 - 文本预训练(FLAP)的自监督方法,通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记,仅关注自我监督的剩余标记,以提高效率。通过互模态对比学习,FLAP 学习将配对的音频和
→
PDF
8 months ago
Prev
Next