面向统一的多模式个性化：基于大型视觉语言模型的生成式推荐及其延伸

ICLRMar, 2024

面向统一的多模式个性化：基于大型视觉语言模型的生成式推荐及其延伸

Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond

Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang...

TL;DRUniMP 是一种统一的多模式个性化系统的范式，通过使用多模态数据并消除任务和模态特定定制的复杂性，充分发挥了基础生成模型的灵活性和效力，以实现广泛的个性化需求，包括物品推荐、产品搜索、偏好预测、解释生成和用户引导的图像生成。

Abstract

Developing a universal model that can effectively harness heterogeneous resources and respond to a wide range of personalized needs has been a longstanding community aspiration. Our daily choices, especially in domains like fashion and retail, are substantially shaped by multi-modal data

heterogeneous resources multi-modal data personalization generative modeling multi-modal personalized tasks

发现论文，激发创造

个性化多模态生成与大型语言模型

该论文提出了一种使用大型语言模型进行个性化多模态生成的方法，并通过实验验证了其性能，在推荐系统等应用中具有重要意义。

Apr, 2024

VIP5: 面向推荐的多模态基础模型

该研究论文提出了一种考虑视觉和文本数据的多模态基础模型，以统一不同模态的推荐任务。这一模型包括多模态个性化提示和参数高效的培训方法，使得模型在时间和存储资源方面表现更加出色。

May, 2023

面向多任务多模态模型的视频生成视角

通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射，我们的研究证明了多模态潜在空间设计的可行性，并提出了一种优于行业标准编解码器的视频本机时空分词器，从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地，我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。

May, 2024

生成多模态解释的个性化展示

本研究提出了一种名为个性化展示的新任务，以更丰富的信息形式生成推荐解释，通过对来自 Google Local 的大规模数据集的构建和收集，运用对比学习的方法构建了一个个性化多模态框架，利用多种输入模态生成多样化和可视化的解释，该框架在多种评估指标上比之前的方法有更多元化和表现力。

Jun, 2022

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

利用大型语言模型的生成式多模态知识检索

我们提出了一种创新的端到端生成框架，用于多模态知识检索，通过利用大型语言模型 (LLMs) 作为虚拟知识库，使用对象感知的前缀调优技术来指导多粒度视觉学习，将多粒度视觉特征对齐到 LLM 的文本特征空间中，通过统一格式的指令数据构建模型训练，最后，我们提出了知识引导的生成策略，在解码步骤中施加先验约束，促进独特知识线索的生成，在三个基准测试中实验证明，与强基线方法相比，在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。

Jan, 2024

用于组合表示学习的多模态生成模型

该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明，对于图像、标签和文本数据，这些模型在很多领域中达到了最优结果，并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后，在配合口语的任务中，该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。

Dec, 2019

大规模语言模型在多模态搜索中的应用

多模态搜索系统结合图像和文本，通过增强匹配能力、推理能力和上下文感知的查询解析和重写，提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上，我们引入了一种新颖的多模态搜索模型，并提出了结合大型语言模型的搜索界面，以实现与用户的对话式互动和上下文考虑的搜索体验的升级，为购物助手提供了类人交互和全面的搜索体验。

Apr, 2024

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021