本文利用变分自编码器和电影嵌入向量,应用于电影推荐,通过VAE网络获取潜在表示,探索了合作式过滤的新方法。
Jul, 2018
本文介绍了一种基于Transformer结构的双模态编码器,用于处理Dense Video Captioning任务,通过同时处理视频和音频两种输入,该模型在ActivityNet Captions数据集上取得了出色的性能表现。
May, 2020
本文提出了一种基于多模态transformer架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态transformer的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020
本文章论述通过训练多模态transformer模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
Jan, 2021
本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零-shot检索和分类。我们在HowTo100M数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零-shot视频检索和零-shot视频行动定位的最新成果。
Dec, 2021
本文介绍了一种基于多模态匹配的自动视频转场推荐方法,通过一个视频转场分类任务和一个匹配模型,该方法可以为每一组相邻的视频镜头推荐最佳的视频转场,得到了与专业编辑相当的用户评分,且可以提高视频编辑效率300倍。
Jul, 2022
本文基于T5文本转文本的transformer模型,将多任务端到端模型应用于对话推荐任务,实现了推荐相关项目和生成对话的双重目标,其中多任务学习和来自ReDIAL数据集的探针研究得到了应用。
May, 2023
本文介绍了一种基于深度转换网络和概率模型的电影海报图像自动多标签类型识别方法,不需要任何额外的文本或元数据信息,通过实验分析在13882个电影海报中的13个类型中表现出色并超过了一些主要的现代架构。
Sep, 2023
本研究聚焦于使用图卷积网络(GCNs)的多媒体推荐系统,旨在更有效地利用多模态特征以准确捕捉用户对项目的偏好。通过提出模态包容GCN(MeGCN)和目标感知注意力等两个核心思想,我们的实验表明MONET在七种最先进的竞争者中非常优越(在召回率@20方面比最佳竞争者高出30.32%),并证明了MONET的两个核心思想的有效性。
Dec, 2023
利用大型视觉-语言模型进行多模态推荐的研究中,研究人员通过引入用户历史和基于图像摘要生成的查询方式,克服了大型视觉-语言模型面临的用户偏好知识和多样复杂图像序列问题,并验证了该方法的有效性。
Feb, 2024