BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal transformers
搜索结果 - 3
朝着联邦学习中的多模态 Transformer
在视觉语言领域中,通过利用转换器架构对现有方法进行系统评估,并引入一种名为 FedCola 的新框架,填补了关于不配对的单模客户端和 FL 中转换器架构的研究空白。通过在各种 FL 设置下进行广泛实验,FedCola 展示了优于先前方法的性
→
PDF
2 months ago
通过自然语言查询进行联合时刻检索和高亮检测
本计划提出了一种新方法,使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测,以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻, 并在多个数据集上进行评估,如 YouTube 亮点和 TVSum。
PDF
a year ago
Pixel-BERT:基于深度多模态 Transformer 实现图像像素与文本的对齐
Pixel-BERT 是一种多模态的深度转换器,可以通过使用图像和文本数据对其进行联合学习,从而在像素和文本级别上进行语义连接,实现视觉和语言任务的更准确和彻底的连接,并解决了视觉任务中语义标签不平衡的问题。
PDF
4 years ago
Prev
Next