PhotoBot：基于自然语言引导的交互式摄影

Jan, 2024

PhotoBot：基于自然语言引导的交互式摄影

PhotoBot: Reference-Guided Interactive Photography via Natural Language

Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, Gregory Dudek

TL;DRPhotoBot 框架结合高级人类语言引导和机器摄影师，实现了基于自动话术采集照片的功能。利用视觉语言模型（VLM）和目标检测器，通过文本描述表征参考图片，然后通过大型语言模型（LLM）根据用户的语言查询检索相关的参考图片。利用一个能够跨不同图片捕捉语义相似性的视觉转换器的训练特征，来对应参考图片和观察场景。该方法通过求解透视 n 点（PnP）问题计算了 RGB-D 相机的姿势调整。在配备腕部相机的真实世界操作器上演示了我们的方法。我们的用户研究表明，通过 PhotoBot 拍摄的照片在美学上往往比用户自己拍摄的更令人满意，这可通过人类反馈来衡量。

Abstract

We introduce photobot, a framework for automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to t

photobot automated photo acquisition visual language model object detector aesthetic

发现论文，激发创造

基于文本指导的人物图像合成

本论文提出了一种新颖的方法，根据自然语言描述操纵人物图像的视觉外观和姿态，并进行了广泛的实验以证明该方法的有效性。

Apr, 2019

通过自然语言反馈教机器描述图片

本研究通过引入人在环路中，使得机器人可以通过自然语言意见反馈学习多层级基于短语的图像字幕生成，展示出比独立编写的人类字幕表现更好的性能

Jun, 2017

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

视觉语言导航：在实际环境中解释基于视觉的导航指令

通过视觉和语言方法的应用，本文提出了一个以真实影像为基础的强化学习环境 Matterport3D Simulator，为现实建筑物的自然语言导航问题提供了第一个基准测试数据集 Room-to-Room (R2R) dataset。

Nov, 2017

自然语言机器人编程：将自然语言处理与自主机器人抓取集成

本文提出了一种基于语法的自然语言机器人编程框架，特别用于拾取和放置任务，其方法使用自定义的动作词词典来存储共享意义的单词，通过增加更多的动作词从词汇数据库，轻松扩展词汇量。本文通过模拟和现实世界的实验验证了我们的自然语言机器人编程（NLRP）框架，使用配备了校准相机和麦克风的 Franka Panda 机器人手臂，并将参与者要求使用口头命令完成拾取和放置任务，该任务经由 Google 的语音转文本 API 转换为文本并通过 NLRP 框架处理，以获取机器人的联合空间轨迹，该方法具有高的系统可用性得分，可以轻松扩展字典而不依赖于转移学习或大型数据集，未来我们计划通过综合用户研究比较所述框架与不同人类辅助拾取和放置任务的方法

Apr, 2023

基于视觉对话构建共同语境的 PhotoBook 数据集

本文介绍了 PhotoBook 数据集，该数据集是一个大规模的英语对话集合，旨在调查会话期间积累的共享对话历史。该数据集包含 2500 个对话，并建议了一个基于共同信息的基准模型，其结果表明共同信息对于解决后续描述至关重要，强调了需要开发对话交互中常用地基础的更复杂的模型。

Jun, 2019

带上下文的自然语言查询的机器人目标检索

我们开发了一种基于机器学习的模型，使机器人能够根据物体的用途检索物体，而不是仅针对特定的物体类型或视觉属性，从而实现了高级概念的预测和自然语言命令的推广。

Jun, 2020

基于短语的图像字幕

本文提出了一个简单的模型，可以根据给定的图片生成相关的句子，它主要侧重于句子的语法，并基于先前训练的卷积神经网络对图像进行编码。该模型使用纯双线性模型训练一个度量来衡量图像表示和用于描述图像的短语之间的关系，并能够基于推断的短语产生给定测试图像的相关描述。这一方法在 Flickr30k 和 Microsoft COCO 等数据集中实现了可比较的结果，同时相对于最先进的模型而言，该方法更加简单。

Feb, 2015

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018

RoboPoint：机器人的空间可行性预测的视觉语言模型

我们介绍了一个自动的合成数据生成流水线，用于调整机器人领域和需求中的视觉语言模型，并通过该流水线训练了 RoboPoint，该模型可以根据语言指令预测图像关键点的可行性。与其他方法相比，我们的方法无需真实世界数据收集或人类示范，使得它在适应多样环境和视点方面具有更大的可扩展性。此外，RoboPoint 是一个通用模型，可以用于机器人导航、操作和增强现实（AR）辅助等多个下游应用。我们的实验证明，RoboPoint 在预测空间可行性的准确性上比最先进的 VLMs（GPT-4o）和视觉提示技术（PIVOT）提高了 21.8％，在下游任务的成功率上提高了 30.5％。

Jun, 2024