Retouchdown: 在StreetLearn中增添Touchdown，作为在街景中进行语言基础任务的可共享资源

Jan, 2020

Retouchdown: 在StreetLearn中增添Touchdown，作为在街景中进行语言基础任务的可共享资源

Retouchdown: Adding Touchdown to StreetLearn as a Shareable Resource for Language Grounding Tasks in Street View

Harsh Mehta, Yoav Artzi, Jason Baldridge, Eugene Ie, Piotr Mirowski

TL;DR该研究发布了 Touchdown 数据集中所需的 29k 个原始街景全景照片，并提供了 Touchdown 任务的参考实现，利用这些街景全景照片可以有效地进行视觉与语言导航和空间描述解决。

Abstract

The touchdown dataset (Chen et al., 2019) provides instructions by human annotators for navigation through New York City streets and for resolving spatial descriptions at a given location. To enable the wider res

发现论文，激发创造

出租车行程结束指令理解研究

描述一个包含合成和真实世界图像的目标位置描述及其注释的数据集，并测试了该语料库在视觉引用解析方面的应用。

Jul, 2018

Touchdown: 视觉街景中的自然语言导航和空间推理

本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题，介绍了Touchdown任务和数据集，通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含9,326个英文指令和空间描述的示例，经验性分析表明，数据对现有方法提出了开放性的挑战，定性的语言分析表明，与相关资源相比，数据利用了更丰富的空间推理。

Nov, 2018

StreetLearn环境和数据集

本文介绍 StreetLearn，一个以 Google Street View 为基础的可交互、第一人称、视觉模拟环境，可用于研究端到端导航，扩充了静态数据集和模拟器。

Mar, 2019

学会停止：一种简单而有效的城市视觉语言导航方法

本论文提出了一种基于训练停止策略模块的Vision-and-Language Navigation模型，能够在现实世界的环境中通过自然语言指示来准确导航，相较于传统方法性能得到了6.89%的提升。

Sep, 2020

基于几何引导的卫星图像街景全景合成

本文提出了一种新的方法，通过建立街景全景图和卫星图像之间的几何对应关系，生成具有新颖性的街景全景图，并展示它在场景几何上的优越性。

Mar, 2021

CityRefer：城市尺度点云数据的地理感知3D视觉引导数据集

介绍了CityRefer数据集，该数据集是最大的城市级地理定位数据集，用于表示具体的3D物体，并开发了基线系统来执行视觉定位任务。

Oct, 2023

基于模型和数据的视觉定位学习

SynGround是一个结合数据驱动学习和知识传递的新框架，通过模型间的知识传递增强预训练的视觉语言模型的视觉定位能力，并通过合成图像和文本来提高模型性能，最终在多个数据集上展示出提升。

Mar, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究针对当前大型语言模型在空间任务上的评估缺乏进行深入探讨，提出了一套新颖的多任务空间评估数据集，系统比较多种模型的性能。研究发现，gpt-4o在总体准确度上表现最佳，而不同的提示策略对模型在特定任务的表现有显著影响，如COT策略在路径规划任务中将gpt-4o的准确率提升至87.5%。

Aug, 2024

评估大型语言模型在空间任务上的表现：一项多任务基准研究

本研究解决了大型语言模型在空间任务上评估不足的问题，介绍了一种新的多任务空间评估数据集，系统地探索和比较多种先进模型的表现。研究发现，gpt-4o在总体准确性上表现最佳，平均准确率为71.3%，而特定提示策略显著提高了模型在某些任务中的表现。

Aug, 2024

在空间任务上评估大型语言模型：多任务基准研究

本研究填补了大型语言模型在空间任务表现评估的空白，通过引入一个新的多任务空间评估数据集，系统性探讨和比较了多种先进模型在空间任务上的表现。研究发现，gpt-4o在整体准确率上表现最佳，同时特定的提示策略显著提升了模型在特定任务中的表现。

Aug, 2024