- FreeMotion:多模态大型语言模型的无动捕人体动作合成
通过利用多语言多模态学习模型(MLLMs)的无动作数据,我们首次探索了基于自然语言指令的开放式人类动作合成,实现了通用的人类动作合成,为未来的研究铺平了道路。
- 语言引导的多任务机器人操作的对比模仿学习
本文介绍了一种多任务机器人操纵的逐字逐句学习方法,该方法通过自然语言指令和视觉观察实现在复杂真实环境中执行各种操纵任务的机器人代理。
- LGR2:语言引导的奖励重新标记加速分层强化学习
开发交互系统,利用自然语言指令解决复杂的机器人控制任务是机器人学界长期以来的目标之一。本研究提出了 LGR2,这是一种新颖的层次强化学习框架,利用语言指令生成上层政策的稳定奖励函数,以解决非稳态问题,从而有效地利用语言指令解决机器人控制任务 - CVPRGeoLLM-Engine: 用于构建地理空间副驾驶的真实环境
地理空间联合指挥系统通过自然语言指令释放了执行地球观测应用的前所未有的潜力。本研究介绍了 GeoLLM-Engine,这是一个环境,用于工具增强的代理人执行遥感平台上由分析师经常执行的复杂任务。我们丰富了我们的环境,配备了地理空间 API - ClickDiffusion:利用 LLMs 进行交互精确图像编辑
提出了一种名为 ClickDiffusion 的系统,结合自然语言指令和用户通过直接操作界面提供的可视化反馈,将图像和多模态指令序列化为文本表示形式,以实现图像的精确变换和生成。
- 通过语言指导探索引导引导启动代理
使用 BAGEL 方法在没有人类监督的情况下通过往返于两个噪音的语言模型组件:将轨迹转换为合成指令的 LM 标签器和将合成指令映射为精细轨迹的零射语言模型代理,将随机探索的轨迹或合成指令转化为演示,快速将初始轨迹分布转换为自然语言描述的轨迹 - WikiTableEdit: 自然语言指令下的表格编辑基准
本研究通过 WikiTableEdit 数据集,评估大型语言模型在不规则结构的表格编辑任务中的表现,提出了使用自然语言指令进行表格编辑的挑战,并将数据集发布给社区推进相关研究。
- 基于基础模型的复杂机器人指令可验证跟随
使机器人能够遵循复杂的自然语言指令是一个重要而具有挑战性的问题。我们提出了一种名为 LIMP 的方法,利用基础模型和时间逻辑生成以指令为条件的语义地图,使机器人能够验实地遵循具有开放词汇和复杂时空约束的丰富和长期的指令,并构建了一种可解释的 - ICLRInstructScene: 指令驱动的具有语义图先验的三维室内场景合成
通过集成语义图形先验和布局解码器的创新生成框架 InstructScene,改进了三维场景合成的可控性和保真度,并展示了零样本方式在各种下游任务中的多功能性。
- 点和指导:通过统一直接操作和文本指令实现精确图像编辑
将直接操作和文本指令相结合,可实现精确图像操作。用户可以通过视觉标记对象和位置,然后在文本指令中引用它们,从而在自然语言的视觉描述性和直接操作的空间精度之间实现有益的结合。
- 评估指令微调对软件漏洞检测的效果
通过对最新的语言模型的能力进行评估,研究了该模型在其训练数据中所使用的编程语言之外的领域的普适性,并检查了自然语言指令在提高这种普适性中的作用。研究通过对真实数据集的模型性能进行评估,以预测代码的脆弱性,从而对于深度学习在软件脆弱性检测中的 - 基于迭代提示重标记的扩散模型与 RLDF
我们提出了迭代提示重新标记 (IP-RLDF) 算法,通过迭代图像采样和提示重新标记将图像与文本对齐。IP-RLDF 在三种不同模型上进行了彻底实验,包括 SDv2、GLIGEN 和 SDXL,测试了它们根据指令生成图像的能力,并在具有挑战 - UINav:UI 自动化代理的制造者
提出了一种名为 UINav 的演示式代理系统,能够以简单手势为主的任务演示实现高成功率,并在保持较轻量级的同时可在移动设备上运行,通过采用裁判模型、宏操作和增加训练数据的方式,最小化任务演示次数,对于每个任务平均 10 次演示,UINav - CVPR用于在连续空间中执行自然语言指令的取送任务的完全自动化任务管理框架
本文旨在开发一个能够根据视觉信息来执行任务的框架,以响应自然语言指令进行带有物体接地的取物和搬运(FCOG)任务。为了解决现有框架的局限性,我们提出了一个完全自动化生成、执行和评估 FCOG 任务的框架,并引入了将任务划分为四个不同子任务的 - EMNLP学习忠实地遵循以物体为中心的图像编辑指令
自然语言指令与图像编辑相结合,通过改进的数据增加监督信号,使模型能够优于最先进的基线技术,在细粒度物体中心编辑方面取得了显著的改进,同时还能推广到训练过程中未见过的领域。
- 评估视觉与语言导航的解释方法
利用深度神经模型进行自然语言指令导航机器人在未知环境中是实现具体化人工智能的关键步骤。本文通过建立定量基准来评估对视觉语言导航模型进行解释的方法,并提出了一种新的基于擦除的评估流程,以测量顺序决策环境中的逐步文本解释。通过实验证实了两个代表 - ISR-LLM:迭代自我改进的大型语言模型用于长时间序列任务规划
通过引入 ISR-LLM,该研究论文提出了一种新颖的框架,借助迭代自我完善过程来改进基于 LLM 的规划,以提高任务的可行性和正确性,并保持与自然语言指令的广泛适用性和普适性。
- ChatGPT 用于 GTFS:从文字到信息
使用自然语言指令,将现有广泛采用的大型语言模型(ChatGPT)用于从 GTFS 中检索信息的研究表明,GPT-3.5 能正确回答 77% 的多项选择题,使用程序合成的信息提取方法在简单问题上达到约 90% 的准确率,在复杂问题上达到约 4 - Android 在野外:用于 Android 设备控制的大规模数据集
用于设备控制研究的数据集 Android in the Wild (AITW) 包含有关设备交互的人类演示、自然语言指令以及需求语义理解的多步骤任务,涵盖多个 Android 版本和设备类型,挑战用户界面操作推断和设备控制系统的鲁棒性分析。
- 指令跟踪的目标表示:半监督语言接口控制
通过使用少量语言数据,我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题,该方法获得了在不同场景下进行操作任务的指令跟随表现,并具有从标记数据中外推语言指示的能力。