面向统一的多模式个性化:基于大型视觉语言模型的生成式推荐及其延伸
该研究论文提出了一种考虑视觉和文本数据的多模态基础模型,以统一不同模态的推荐任务。这一模型包括多模态个性化提示和参数高效的培训方法,使得模型在时间和存储资源方面表现更加出色。
May, 2023
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
本研究提出了一种名为个性化展示的新任务,以更丰富的信息形式生成推荐解释,通过对来自 Google Local 的大规模数据集的构建和收集,运用对比学习的方法构建了一个个性化多模态框架,利用多种输入模态生成多样化和可视化的解释,该框架在多种评估指标上比之前的方法有更多元化和表现力。
Jun, 2022
通过利用多模态大型语言模型创建 VisionPrefer,我们构建了一个高质量和细粒度的用户偏好数据集,用于指导文本到图像生成模型的训练,该数据集在多个偏好方面捕捉了人类的喜好,并且其性能优于之前的人类偏好度量标准,并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中,是实现与人类偏好更好的对齐的一个有前途的途径。
Apr, 2024
通过 UnIVAL 统一模型,可以有效地支持图像、文本、视频和音频等多种模态任务,并通过模型权重插值实现多模态模型融合,展示其在特定领域的分布外泛化能力。
Jul, 2023
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。
Jan, 2024
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得到更好的表现。最后,在配合口语的任务中,该文章发现用于学习图像表达的表示比只使用视觉数据中学习的等效表示更抽象、更组合。
Dec, 2019
多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与用户的对话式互动和上下文考虑的搜索体验的升级,为购物助手提供了类人交互和全面的搜索体验。
Apr, 2024
该研究提出了一个统一框架,通过相同的语言建模目标,在单个体系结构中学习不同的任务,实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现,这种生成方法(在单个统一的体系结构下)显示出了与最先进的特定任务模型相当的性能,并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。
Feb, 2021