揭示多模态互动对用户参与度的影响:在 AI 驱动的对话中的综合评估
多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与用户的对话式互动和上下文考虑的搜索体验的升级,为购物助手提供了类人交互和全面的搜索体验。
Apr, 2024
该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人,通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率,从而达到使用者参与度优先的目的。研究结果表明,这种方法可以将聊天长度增加高达 70%,使 GPT-J 6B 模型的用户留存率增加超过 30%。未来的工作将使用奖励模型实现数据飞轮,以轮换地微调语言模型和奖励模型。
Mar, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动 UI 设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
通过四个案例研究展示了大型语言模型在医疗保健中的应用,包括分析 Reddit 上的心理健康讨论、为老年人进行认知参与开发个性化聊天机器人、总结医疗对话数据集和设计 AI 助力病患参与系统。同时讨论了在医疗保健环境中引入大型语言模型的道德考虑、最佳实践和指南。
Jun, 2024
通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾,本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用,以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战,并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述,我们揭示了 MM-LLM 在各种应用中的转型潜力。
Mar, 2024
本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话,从而可靠地收集用户自报数据。通过在线研究(N = 48),我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估,并发现提示设计和主题显着影响了对话流程和数据收集表现。
Jan, 2023
本文旨在研究结合先进的开放域对话代理和视觉模型,以实现多模态对话的目标,研究不同的图像融合方案和域自适应预训练和微调策略,并展示了我们最好的模型不仅在多模态对话方面优于现有的强模型,而且在纯文本对话方面表现也和其前身 BlenderBot 一样好,同时我们还研究并整合了安全组件,展示这种努力不会削弱模型性能方面的吸引力度量。
Oct, 2020
本文提出了一种名为 ChatBridge 的多模态语言模型,利用语言的表达能力作为各种模态之间的桥梁,从而实现多种任务的感知。ChatBridge 利用大型语言模型(LLM)的零 - shot 能力来处理多样化的多模态输入,尤其是在涵盖文本、图像、视频和音频模态的 16 种多模态任务中展现出良好的强化学习效果。
May, 2023