基于注意力机制的多模态数据顺序推荐系统

May, 2024

基于注意力机制的多模态数据顺序推荐系统

Attention-based sequential recommendation system using multimodal data

Hyungtaik Oh, Wonkeun Jo, Dongil Kim

TL;DR提出了一种基于多模态数据的关注机制的序列推荐方法，该方法利用图像、文字和类别等多模态数据，利用 attention 操作和多任务学习损失，提高了推荐系统的性能。

Abstract

sequential recommendation systems that model dynamic preferences based on a use's past behavior are crucial to e-commerce. Recent studies on these systems have considered various types of information such as imag

sequential recommendation systems dynamic preferences multimodal data attention-based method multitask learning

发现论文，激发创造

VLSNR: 基于视觉语言协调和时序感知的新闻推荐

提出了一种视觉 - 语言坐标时间序列新闻推荐方法，基于预训练的多模型编码器，应用自注意力网络学习时间顺序。通过构建的大规模多模式新闻推荐数据集 V-MIND 验证了该方法的优越性。

Oct, 2022

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

基于层次融合的多模态电子商务产品分类

本研究提出了一种多模态模型，通过使用多个神经网络模型从文本（CamemBERT 和 FlauBERT）和视觉数据（SE-ResNeXt-50）提取的特征，并采用简单的融合技术，显著提高了单一模态模型的性能和类似模型性能，我们实验了多种融合技术，并发现将单一模态网络的个体嵌入组合为特征向量的拼接和平均值结合的性能最好，每种模态互补了其他模态的缺点，证明增加模态数量可以是改善多标签和多模态分类问题性能的有效方法。

Jul, 2022

BiVRec: 双向基于视图的多模态顺序推荐

提出了一种创新的框架 BivRec，通过联合训练 ID 和多模态视图的推荐任务，使推荐性能实现双向增强。该框架利用多尺度兴趣嵌入和交叉视图兴趣学习等模块，解决了信息异质性问题，并在五个数据集上取得了最先进的性能。

Feb, 2024

一种用于电子商务产品分类的多模态后融合模型

本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法，以对 Rakuten 上的电子商务产品进行分类，并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。

Aug, 2020

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

图像不会骗人：将深度视觉语义特征传递到大规模多模态学习中的排序

本文介绍了一种多模式学习排序模型，它将传统特征和来自深度卷积神经网络的视觉语义特征相结合，用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中，我们验证了多模式表示显著提高了排名质量，并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。

Nov, 2015

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

电子商务中大规模商品推荐生成的多模态推荐系统

本文提出了两种可视化推荐系统，该系统可以自动为客厅家具配套筛选整个选择，以最大化配合效果和利用文本数据和多语言话题建模来推断风格。实验结果表明，从包括视觉和文本数据的产品集合中发现补充风格效果最好。

Jun, 2018

多模态注意力神经机器翻译

本文将多模态注意力机制应用于图像字幕生成领域，通过在自然语言描述和图像上同时聚焦，实现了一种基于图像字幕的另一种语言描述生成方法，并在 Multi30k 数据集上取得了更好的效果。

Sep, 2016