BriefGPT.xyz
Ask
alpha
关键词
visually grounded speech model
搜索结果 - 3
SpeechCLIP+: 自我监督多任务表示学习:用于语音的 CLIP 和语音 - 图像数据
通过替换固定数量的 CLS 令牌,基于 Continuous Integrate-and-Fire 模块的级联 SpeechCLIP 模型在语音关键词提取任务中优于之前的级联 SpeechCLIP 模型。此外,通过混合架构,级联任务学习提升
→
PDF
5 months ago
低资源环境下基于视觉支撑的少样本词汇学习
本研究提出了一种视觉语音模型,能够通过少量的图像和单词样本来学习新词汇及其视觉描述,并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。
PDF
a year ago
视觉为基础的少样本词汇习得
本文提出了一个视觉和语音相融合的模型,用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中,使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对,并使用单词到图像的关注机制来确定词 -
→
PDF
a year ago
Prev
Next