BriefGPT.xyz
Ask
alpha
关键词
audio-text representations
搜索结果 - 2
FLAP:快速语言音频预训练
我们提出了快速语音 - 文本预训练(FLAP)的自监督方法,通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记,仅关注自我监督的剩余标记,以提高效率。通过互模态对比学习,FLAP 学习将配对的音频和
→
PDF
8 months ago
音频文本跨模态表示的无监督改进
本文研究了使用无配对数据进行无监督学习的方法,结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。
PDF
a year ago
Prev
Next