BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal memory
搜索结果 - 2
EMNLP
MuRAG: 图像和文本开放式问答的多模式检索增强生成器
MuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。
PDF
2 years ago
语义音视频导航
介绍了语义音频可视化导航的概念,提出了基于 Transformer 的模型用于处理语义 AudioGoal 任务,拥有持久的多模态记忆,通过学习语义、声音和视觉提示的关联性,可实现在声音事件停止后,仍能到达目标的导航能力。
PDF
4 years ago
Prev
Next