通过自然语言反馈教机器描述图片
本文提出了一种交互式学习的图像标题生成模型,该模型使用数据增强方法来扩大人类反馈所提供的有效学习信息,并智能地将其集成到模型中,本文重点讨论了其反馈收集、数据增强和模型更新三个关键组件的实现方法。
Feb, 2022
本研究探索了一种潜在的方法,通过使用 Flickr8k 数据集,将监督学习和强化学习与人类反馈相结合,以提高深度神经网络模型生成符合人类偏好的标题的性能,并引入了一种新的损失函数,能够基于人类反馈优化模型。
Mar, 2024
本文提出了一个简单的模型,可以根据给定的图片生成相关的句子,它主要侧重于句子的语法,并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系,并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果,同时相对于最先进的模型而言,该方法更加简单。
Feb, 2015
介绍了一种新的交互式图像检索方法,该方法允许用户通过自然语言提供反馈,形成了一个基于强化学习的对话系统,用于提高目标图像的排名,该方法在鞋类检索应用中表现出更好的准确性和更有效的检索结果。
May, 2018
该研究提出了一种联合学习自然语言基础和可教授行为策略的方法,并使用叙述视觉演示(NVD)对其进行监督。通过将指导者描述映射到感知奖励探测器,训练对应的行为策略。通过实验表明,具有自然语言指导的可教授代理人可以在测试时执行涉及新对象和新位置的行为。
Apr, 2018
本篇论文介绍一种基于深度递归结构的生成模型,其结合了近期在计算机视觉和机器翻译方面的进展,能够用于生成描述图像的自然语言句子,并经过多种数据集的实验,验证了模型的准确性和语言的流畅性。更重要的是,该模型是通过对图像描述的学习而得,在最近的 COCO 数据集比赛中获得了与 Microsoft Research 团队平分秋色的好成绩,并提供了一个基于 TensorFlow 开源的实现。
Sep, 2016
本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。
Sep, 2020
本研究探究了基于 actor-critic 强化学习的图像标题生成模型的训练方法,通过计算每个 token 的优势和值实现直接优化语言质量指标,取得了在 MSCOCO 数据集上的最先进性能。
Jun, 2017