BriefGPT.xyz
Ask
alpha
关键词
tri-modal joint embedding models
搜索结果 - 1
CVPR
T-VSL: 混合环境下的文本引导视听源定位
我们提出了一种利用 Tri-modal joint embedding 模型通过文本模态作为中间特征引导,在多源混合中分离语义音视源对应关系的 T-VSL 框架,该方法在训练期间通过预测混合中声音实体的类来引导细粒度的音视源对应关系的分离,
→
PDF
3 months ago
Prev
Next