- 从文本描述中生成三维场景的人类动作
通过将任务分解为两个可管理的子问题:目标对象的语言准确性和以目标对象为中心的运动生成,本文提出了一种新的方法来生成给定人 - 场景交互文本描述的 3D 室内场景中的人体动作,实验表明我们的方法在运动质量方面优于基线并验证了我们的设计选择。
- DecisionNCE: 通过隐式偏好学习实现的具身多模态表示
通过多模态预训练方法,本论文提出了一种通用的统一目标,可以同时从图像序列中提取有意义的任务进展信息,并将其与语言指令无缝对齐,以提供一种优雅地提取本地和全局任务进展特征的实体化表示学习框架,通过隐式时间对比学习强制执行时间一致性,并通过多模 - GRASP: 用于评估多模态语言模型中语言引用与情境物理理解的新型基准测试
该研究提出 GRASP,这是一个用于评估基于视频多模式大型语言模型(LLMs)的语言理解和物理理解能力的新的基准。通过利用 Unity 模拟技术,这一评估通过两级方法完成。初始级别测试语言理解能力,通过评估模型将简单文本描述与视觉信息联系起 - HandMeThat:物理和社交环境中的人机通信
通过 HandMeThat 数据集,我们评估了指令理解和遵循在物理和社会环境下的全面表现,结果显示离线和在线强化学习算法在 HandMeThat 上表现不佳,说明在物理和社会人机通信和交互方面有很大的改进空间。
- 利用多模态引导在长视频中定位时刻
本文研究了基于视频的语言表示的大规模 MAD 数据集。 现有的基于句子的方法在长视频中表现效果不佳,本文提出了一种新的指导模型的方法,以提高基于句子的方法在长视频上的表现。该方法经实践证明,在 MAD 数据集上获得了更好的效果。
- 将互联网规模的视觉 - 语言模型化为具体智能体
本文提出了一种利用预训练的视觉语言模型(VLMs)来监督具有目的地行动的体验型智能体从而让其学会与不同类别的对象交互的新型方式。通过少量提示和后见之明体验回放(HER)技术,我们可以使体验型智能体学习抽象类别的成员资格以及与特定任务相关的语 - 通过指导提升结构化探索实现物体导航
本文提出了一种层次化学习方法,包括高层的规划和记忆以及低层的房间导航和物品寻找,通过简单的合成语言为代理提供指令,同时使用另一个目标评估模块将指令映射到视觉观察中。在一个动态可配置的家庭环境中验证了该方法的有效性。
- 走向目标:基于场景的足球评论资源
本文提出了 GrOunded footbAlL commentaries(GOAL)数据集,该数据集包括了足球视频以及相应的英语实况解说文本,用于探究动态语言上下文,进一步提供了诸如帧重排序、时刻检索、实况解说检索、以及实况解说生成等四项任 - 基于最优传输对跨领域摘要生成的语义一致性对齐
本文提出了一种语义一致的跨域多媒体概述模型,该模型基于最优传输对视觉和文本分割进行交互匹配,并用于选择视觉和文本摘要,以从整个视频和文章中捕获结构语义,从而通过多媒体交互来匹配和选择。三个最近的多模式数据集中证明了该方法的有效性,以生成高质 - 语言基础的信任:人机协作中的新 AI 挑战
该论文探讨了 “语言基础” 这一挑战,旨在通过将语言绑定到真实世界的参照物中来完全理解自然语言。该研究提供了三个贡献,分别为:a)分析了人工智能技术、数据集和用户界面等方面的语言基础研究概述;b)提出并实证了与语言基础相关的六个假设的信任因 - ACLWebShop: 面向可扩展的真实世界网络交互的基于场景语言智能体
通过开发一个模拟的电子商务网站环境,使用强化学习、模仿学习和预训练图像和语言模型训练和评估多种代理人,以便理解指令、购买商品并在嘈杂的网页中执行动作,并分析代理人和人类的轨迹以提供以后的思路。
- 语言与视觉:基于场景的词语和句子嵌入研究
本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法,使得即使对于抽象词,我们也能生成受视觉基础支撑的嵌入,并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词,还有益于抽象词。
- 基于区域特定动态层注意力融合的自主车辆指令落地
该研究旨在探讨如何通过语言理解来实现自动驾驶汽车与人之间的交互,通过对多模态信息的自适应融合,提高语义理解准确度,改进对自然语言命令的视觉场景定位能力。实验结果表明,该模型优于目前现有的技术水平。
- 全局思考,本地行动:面向视觉和语言导航的双尺度图形 Transformer
通过使用 Dual-scale Graph Transformer(DUET)建立拓扑地图来平衡全局动作控制和局部语言理解的复杂性,在视觉动作规划领域,DUET 明显优于现有研究成果,包括 REVERIE、SOON 和 R2R。
- ICLR通过目标生成将语言与自主获得的技能联系起来
语音条件加强学习是获取技能库的好工具,但大多数学习代理无法自主学习并直接语言条件化不能表达过多的行为多样性。本文提出了一种名为 LGB 的新型语言条件强化学习思路,通过中间语义表示解耦技能学习和语言基础。
- 在基于图像场景环境的语义空间中融合视觉语义到句子表示中
本文目的在于通过学习一种中间的 representation space 将视觉信息转移到文本表示中,以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题,作者还提出了两个新的目标,来保证相关元素之间的相似性跨领域地保持和 - ShapeGlot: 学习形状区分的语言
本文研究了细微的物体形态差异在语言中的表达方式,通过图像和三维模型构建了大规模的数据集,利用神经网络进行理解和表达,实现了零样本迁移学习并探究了物体形态与语言结构在物体差异中的关系。
- 在街景中学习遵循指示
本研究介绍了一个基于 Google Street View 的任务环境 StreetNav, 该环境结合了模拟环境的实用性和真实环境的挑战性,可用于测试机器学习系统的语言理解、规划、导航和计算机视觉能力,并使用深度强化学习训练算法来实现导航 - ICLR在二维环境中的交互式基于语境的语言习得和推理
基于 2D 迷宫世界,通过虚拟代理学习语言的模型,将语言的生成与理解与其他计算流程分离,从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果,大幅优于其他五种比较方法。
- 在模拟的 3D 世界中的基于场景语言学习
通过增强和无监督学习,训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令,将语言符号与周围物理环境的感知表示和相关的行动序列联系起来,实现语言含义的压缩和提取,从而揭示出关于语言基于感知概念的本质和潜力。