多模态Transformer特征融合下的电影推荐与海报关注

Jul, 2024

多模态Transformer特征融合下的电影推荐与海报关注

Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion

Linhan Xia, Yicheng Yang, Ziou Chen, Zheng Yang, Shengxin Zhu

TL;DR使用预训练模型BERT、ViT和Transformer架构来构建多模态电影推荐系统，在电影的海报、文本描述和用户偏好的基础上进行特征提取和融合，以提供更准确的推荐。

Abstract

pre-trained models learn general representations from large datsets which can be fine-turned for specific tasks to significantly reduce training time. pre-trained models like generative pretrained transformers (G

发现论文，激发创造

一种用于协同过滤的混合变分自编码器

本文利用变分自编码器和电影嵌入向量，应用于电影推荐，通过VAE网络获取潜在表示，探索了合作式过滤的新方法。

Jul, 2018

音视频线索的更佳应用：基于双模变换器的密集视频字幕

本文介绍了一种基于Transformer结构的双模态编码器，用于处理Dense Video Captioning任务，通过同时处理视频和音频两种输入，该模型在ActivityNet Captions数据集上取得了出色的性能表现。

May, 2020

视频检索的多模态Transformer

本文提出了一种基于多模态transformer架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态transformer的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

多模态转换器中数据、注意力和损失的解耦

本文章论述通过训练多模态transformer模型，其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务，并研究了三个重要因素：预训练数据、注意机制和损失函数，以评估其对于模型性能的影响。

Jan, 2021

一次搞定——用于视频检索的多模态融合Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零-shot检索和分类。我们在HowTo100M数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零-shot视频检索和零-shot视频行动定位的最新成果。

Dec, 2021

自动过渡：学习推荐视频过渡效果

本文介绍了一种基于多模态匹配的自动视频转场推荐方法，通过一个视频转场分类任务和一个匹配模型，该方法可以为每一组相邻的视频镜头推荐最佳的视频转场，得到了与专业编辑相当的用户评分，且可以提高视频编辑效率300倍。

Jul, 2022

多任务端到端训练改善对话式推荐

本文基于T5文本转文本的transformer模型，将多任务端到端模型应用于对话推荐任务，实现了推荐相关项目和生成对话的双重目标，其中多任务学习和来自ReDIAL数据集的探针研究得到了应用。

May, 2023

电影海报多标签类型识别中的视觉特征揭秘

本文介绍了一种基于深度转换网络和概率模型的电影海报图像自动多标签类型识别方法，不需要任何额外的文本或元数据信息，通过实验分析在13882个电影海报中的13个类型中表现出色并超过了一些主要的现代架构。

Sep, 2023

MONET: 多模态图卷积网络和目标感知注意力在多媒体推荐中的应用

本研究聚焦于使用图卷积网络（GCNs）的多媒体推荐系统，旨在更有效地利用多模态特征以准确捕捉用户对项目的偏好。通过提出模态包容GCN（MeGCN）和目标感知注意力等两个核心思想，我们的实验表明MONET在七种最先进的竞争者中非常优越（在召回率@20方面比最佳竞争者高出30.32％），并证明了MONET的两个核心思想的有效性。

Dec, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉-语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉-语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024