MIND:从大型视觉 - 语言模型中蒸馏多模态购物意图以实现电子商务购买理解
在这篇论文中,我们提出了 IntentionQA,一个双重任务多项选择问题回答基准,用于评估语言模型对电子商务中购买意图的理解能力。通过以购买的产品为基础推测意图,并利用它们预测额外的购买,LMs 被赋予了推断意图的任务。IntentionQA 包含了 4,360 个经过精心筛选的问题,涵盖了三个难度级别,使用自动化流程在大型电子商务平台上保证了可扩展性。人工评估结果表明我们的基准具有高质量和低误报率。我们的代码和数据公开在该网址。
Jun, 2024
为了理解社交媒体帖子中的意图,我们提出了 MIKO,一种多模态意图知识提取框架,通过协同使用大型语言模型和多模态大型语言模型来揭示用户的意图。应用 MIKO 到公开的社交媒体数据集,我们构建了一个包含 137,287 条帖子中 1,372,000 个意图的意图知识库,并通过两阶段注释验证了生成的知识的质量,并对常用的大型语言模型进行意图生成的性能基准测试。我们进一步将 MIKO 应用于讽刺检测数据集,并提取出一个学生模型来展示应用意图知识的下游效益。
Feb, 2024
本文提出了一种利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放(HER)技术,我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语境,在利用因特网规模的 VLMs 的通用语言基础的同时完成语言建模。
Jan, 2023
多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与用户的对话式互动和上下文考虑的搜索体验的升级,为购物助手提供了类人交互和全面的搜索体验。
Apr, 2024
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
为了促进人工智能系统推断人类意图的能力的发展和评估,我们推出了一个基于物体 - 语境关系的大规模多模态视频数据集,用于意图预测,旨在实现在协作环境中具有有效和高效的人机交互。
Mar, 2023
本文提出了一种新的设置,通过加入营销关键词生成与产品特点更符合的图像描述。为解决同类产品拷贝文字相似导致生成描述不准确的问题,引入了名为 ModICT 的多模态文本调整方法,通过类似产品样本作为参考,利用语言模型的上下文学习能力生成描述。实验证明,与传统方法相比,ModICT 显著提高了生成结果的准确性(Rouge-L 提升了 3.3%)和多样性(D-5 提升了 9.4%),可用于增强各种应用中自动生成产品描述的效果。
Feb, 2024
提出了 MMIDR 框架,用于教授大型语言模型在多模态错误信息检测中提供流畅、高质量的文本解释,通过数据增强和流程设计,将多模态错误信息转化为适当的指令遵循格式,再利用知识蒸馏方法将专有模型的解释能力传递给开源模型,实验证明 MMIDR 具有足够的检测性能,并能够提供有力的解释支持。
Mar, 2024
通过将常识知识图与大型视觉语言模型结合,改进了多模态营销活动的效果预测,并实现了对可能具有说服力的多模态活动的早期检测以及对营销理论的评估和增强。
Feb, 2024
本文提出了一种用于多语言和跨语言口语数据意图检测的系统性研究,对该研究所介绍的一个新资源(MInDS-14)进行了利用,证明使用机器翻译模型和最先进的多语言句子编码器相结合能够在大多数 MInDS-14 所涵盖的目标语言中产生强大的意图检测器,并提供了针对不同维度(如零 - shot 学习与有限 - shot 学习、翻译方向、语音识别的影响)的比较分析。我们认为这项工作是在比以往的工作更广泛的语言范围内开发和评估多语意图检测器的重要一步。
Apr, 2021