BriefGPT.xyz
Ask
alpha
关键词
visual grounding objective
搜索结果 - 1
AAAI
自监督语音表征学习:基于视觉辅助和屏蔽语言建模
本研究基于最近提出的 FaST-VGS 模型,该模型是一种基于 Transformer 的模型,学习将原始语音波形与语义相关的图像相关联,同时引入了一种新颖的扩展模型 FaST-VGS +,该模型在多任务训练中学习了掩码语言建模目标和视觉基
→
PDF
2 years ago
Prev
Next