BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal topics
搜索结果 - 1
利用多模态潜在主题进行视频字幕生成
该论文提出了一种基于 M&M TGM 的统一字幕生成框架,它利用从数据中无监督挖掘的多模态话题,并通过话题引导字幕解码器,通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验,证
→
PDF
7 years ago
Prev
Next