多模态模块化人工智能厨师:基于图像的复杂食谱生成
我们的研究利用大语言模型将菜谱文本转化为易于理解的形式,通过改进菜谱的步骤和指令并使用 Amazon Mechanical Turk 任务收集人类意见,证明了大语言模型作为数字厨师的潜在应用。
Jun, 2023
通过使用大规模语言模型和图像模型构建 AiGen-FoodReview 数据集,本论文提供了检测和识别机器生成的虚假评论的方法,该方法能在单模态和多模态情况下取得接近真实数据性能的可扩展并可解释的检测结果。
Jan, 2024
该研究提出了一种针对食品计算领域的新型多模态方法(FIRE),该方法基于输入的食品图像生成食品标题、配料和烹饪说明,并展示了与大型语言模型提示结合的两个实际应用:将食谱个性化以适应用户偏好和将食谱转化为代码以实现自动化烹饪过程。实验结果验证了该方法的有效性,并强调其在食品计算领域的未来发展和广泛应用潜力。
Aug, 2023
本文提出了一种新颖的跨模态学习框架来自动发现食谱中文本和图像的实体及其相应的重要性,并能在没有明确监督的情况下识别出食谱描述中的主要成分和烹饪动作,为跨模态检索和食谱适应任务提供更有意义的特征表示。
Feb, 2021
ImgAny 是一种新颖的端到端多模态生成模型,可以模仿人类推理并生成高质量图像。该方法能够有效且灵活地接收来自语言、音频和视觉等七种不同的模态组合,并通过实体融合分支和属性融合分支整合多个输入模态,并利用预训练的稳定扩散模型生成图像。大量实验证明了其在视觉内容创作方面的卓越能力。
Jan, 2024
本研究探索了使用生成 AI 方法扩展当前食品计算模型的可能性,主要涉及营养和配料分析,以及包括烹饪行为(例如加盐,煎肉,煮蔬菜等),并提出了一种新的基于聚合的生成 AI 方法 Cook-Gen。
Jun, 2023
利用图形化方法描述菜谱的工作流程是一个需要常识推理的复杂任务。本文提出了一个基于神经网络技术的编码器 - 解码器模型,通过使用视觉和文本信息来构建食品制作工作流程。我们还构建了一个包含 9,850 道菜谱的大型数据集,采用该方法比手工特征提取能够显著提高 20% 以上的性能。
Aug, 2020
本文提出了一种跨模态检索模型,采用视觉和文本数据对餐品及其食谱进行建模,并在包含近 100 万图像配方对的 Recipe1M 数据集上进行了验证,取得了比先前最先进模型更好的效果,并针对计算烹饪应用案例展示了质量结果。
Apr, 2018