提出了一种视觉 - 语言坐标时间序列新闻推荐方法,基于预训练的多模型编码器,应用自注意力网络学习时间顺序。通过构建的大规模多模式新闻推荐数据集 V-MIND 验证了该方法的优越性。
Oct, 2022
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
本研究提出了一种多模态模型,通过使用多个神经网络模型从文本(CamemBERT 和 FlauBERT)和视觉数据(SE-ResNeXt-50)提取的特征,并采用简单的融合技术,显著提高了单一模态模型的性能和类似模型性能,我们实验了多种融合技术,并发现将单一模态网络的个体嵌入组合为特征向量的拼接和平均值结合的性能最好,每种模态互补了其他模态的缺点,证明增加模态数量可以是改善多标签和多模态分类问题性能的有效方法。
Jul, 2022
提出了一种创新的框架 BivRec,通过联合训练 ID 和多模态视图的推荐任务,使推荐性能实现双向增强。该框架利用多尺度兴趣嵌入和交叉视图兴趣学习等模块,解决了信息异质性问题,并在五个数据集上取得了最先进的性能。
Feb, 2024
本研究基于文本和图像模态探讨了一种基于多模态晚期融合的方法,以对 Rakuten 上的电子商务产品进行分类,并证明了该方法相比于单模态和其他多模态方法的有效性和优越性。该研究团队在 SIGIR 2020 电子商务研讨会数据挑战赛的多模态产品分类任务中以 0.9144 的 macro-F1 得分荣获第一名。
Aug, 2020
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
本文介绍了一种多模式学习排序模型,它将传统特征和来自深度卷积神经网络的视觉语义特征相结合,用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中,我们验证了多模式表示显著提高了排名质量,并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。
Nov, 2015
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
本文提出了两种可视化推荐系统,该系统可以自动为客厅家具配套筛选整个选择,以最大化配合效果和利用文本数据和多语言话题建模来推断风格。实验结果表明,从包括视觉和文本数据的产品集合中发现补充风格效果最好。
Jun, 2018
本文将多模态注意力机制应用于图像字幕生成领域,通过在自然语言描述和图像上同时聚焦,实现了一种基于图像字幕的另一种语言描述生成方法,并在 Multi30k 数据集上取得了更好的效果。
Sep, 2016