基于物体和动作意象的理解语言习得

Sep, 2023

基于物体和动作意象的理解语言习得

Grounded Language Acquisition From Object and Action Imagery

James Robert Kubricht, Zhaoyuan Yang, Jianwei Qiu, Peter Henry Tu

TL;DR通过深度学习方法研究自然语言处理，通过训练紧密连接的编码器 / 解码器，在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言，并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验，旨在进行物体识别和动作识别，研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹，通过梯度加权类激活映射（Grad-CAM）方法和 t-SNE 方法解释了学习到的符号和嵌入。

Abstract

deep learning approaches to natural language processing have made great strides in recent years. While these models produce symbols that convey vast amounts of diverse knowledge, it is unclear how such symbols ar

deep learning natural language processing emergent language object recognition action recognition

发现论文，激发创造

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

基于经验的语言学习快与慢

文章介绍了如何通过深度神经网络的元学习，分集记忆以及明确的多模态环境来实现迅速绑定，提供了人类认知发展的基本支柱和与人类用户交互的代理的一个潜在的转变能力。

Sep, 2020

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

LanGWM: 语言引导的世界模型

通过语言为鲁棒的动作选择增强状态抽象技术，利用语言为基础的视觉特征来改进强化学习中的世界模型学习，提高对于复杂任务中的视觉控制的推广性。

Nov, 2023

通过图片学习语言

该研究提出了 Imaginet 模型，该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示，采用多任务目标，并从视觉场景描述中获取单词的含义表达，并学习有效地利用语义解释多词短语的顺序结构。

Jun, 2015

以交互为预训练的地面功能表示学习

借助神经网络建模物体状态，可以实现有效的物体功能信息提取并与传统语义学模型相结合，能够在基于图像的语言学习上取得更好的表现。

Jul, 2022

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

基于三维视觉特征表示的具身化语言基础

提出结合语言表述和三维可视化的方法，通过生成模型和检测模型等工具，可以从图像中推理出三维可视特征图，并进一步实现语言方面的任务，如检测引用表达和物体放置策略。这种方法可以更好地进行全景视角和空间推理。

Oct, 2019