通过替代训练增强基于会话的推荐中的 ID 和文本融合
通过系统调查多模态推荐中的对齐问题,本文提出了一种名为 AlignRec 的解决方案,由内容内部对齐、内容与分类 ID 之间的对齐,以及用户与项目之间的对齐这三个目标函数组成,将其融入到我们的多模态推荐框架中,并通过实验证明了 AlignRec 相对于其他九种基线方法的优越性。
Mar, 2024
利用高级语义,通过视觉 - 语言模型建立文本与图像信号之间的粗粒度关联机制,并在变换器网络中嵌入仿射融合单元以在特征级别上融合文本和图像模态,提出了一种以文本为导向的融合方法,并释放了一个文本注释的图像融合数据集 IVT 来促进其实施和在研究社区的采用。大量实验证明我们的方法(TextFusion)在传统的基于外观的融合方法上始终表现优异。
Dec, 2023
多模态重新识别是一个流行的检索任务,旨在跨不同数据流重新识别对象,本研究发现现有的后期融合技术在与训练单独的模态比较时产生次优潜在表示,我们探讨了这种效应主要是由于融合使用时对个别模态的训练目标不经意地放松,他人称之为模态懒散。我们提出了一个细致的观点,即这种放松可能导致某些模态无法充分利用可用的任务相关信息,然而,对于噪声模态提供了保护屏障,防止它们过拟合到无关数据,我们的发现还表明,当与已知最佳训练技术配对时,单模态拼接(UniCat)和其他后期融合的单模态骨干集成在多个多模态 ReID 基准测试中超过了当前的最先进性能,通过揭示 “模态懒散” 的双刃剑,我们推动未来研究在平衡局部模态优势和全局表示方面。
Oct, 2023
本研究提出了两种自适应融合网络(Auto-Fusion、GAN-Fusion),通过对不同模态的特征进行有效的上下文建模,在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。
Nov, 2019
借助语义文本引导的图像融合模型,解决了低质量原始图像的退化问题和多重主观客观需求的非交互性。通过文本语义编码和语义交互融合解码器,实现多模式图像和信息的融合,并在图像融合性能和退化处理方面具有明显优势。
Mar, 2024
我们提出了一个新的框架,使用基于排名的张量融合来显式学习准确的图像文本相似度函数,通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡,从而达到了优秀的匹配性能。
Aug, 2019
通过 IDGen 方法将每个项目表示为独特、简洁、语义丰富、与平台无关的文本 ID,并通过基于 LLM 的推荐系统和文本 ID 生成器的协同训练,无缝地将个性化推荐融入自然语言生成,从而建立了一个基础生成推荐模型。实验结果表明,该方法在标准实验设置下在序列推荐方面始终优于现有模型,并且该方法在从 19 个不同数据集中收集的数据上进行零 - shot 训练后,在 6 个不同平台上的未见数据集上的推荐性能与一些基于监督训练的传统推荐模型相当甚至更好,展示了 IDGen 模式作为生成推荐基础模型的潜力。
Mar, 2024
通过使用中间融合机制,我们在文本生成图像任务上获得了更高的 CLIP 得分,更低的 FID,与早期融合相比减少了 20% 的运算量,并且训练速度提高了 50%。
Mar, 2024
本文研究了多模态推荐中 ID 嵌入的价值和语义特征,并提出了一种新的推荐模型,通过引入 ID 嵌入来增强内容和结构的语义特征。通过层次化注意机制和对比学习,提高了内容表示,并利用轻量级图卷积网络和 ID 嵌入改进了结构表示,最后将内容和结构表示相结合形成最终的物品嵌入。实验结果证明了我们方法在多个真实数据集上的优越性和对精细 ID 嵌入的有效性。
Nov, 2023