朝向视觉语法理解
通过引入 “图像语法” 的概念,结合卷积神经网络和视觉变换器,我们提出了一个两阶段的弱监督学习方法,利用深度聚类和特征细化生成部分 - 语义分割,并结合双向长短时记忆模块处理语义分割补丁序列以捕捉图像语法,实现了对图像补丁损坏的准确检测,在多种语义和句法损坏场景中,验证了我们的框架在 Celeb 和 SUNRGBD 数据集上能够实现 70% 到 90% 的语法验证准确度。
Jan, 2024
通过自然语言句子中的识别视觉实体和将其按照二维空间布局排列,需要对语言和空间进行构造性理解。本研究通过对比显示,如果句子提到了在训练期间看到的类似实体关系,则可以从隐式或显式编码句子句法的语言表示中预测布局。为了测试构造性理解,我们收集了一组语法正确的测试句子和布局,它们描述了在训练期间很可能没有见过的实体和关系的组合。结果显示,在这个测试集上的表现大幅下降,表明当前模型依赖于训练数据中的相关性,并且在理解输入句子的结构方面存在困难。我们提出了一种新颖的结构损失函数,更好地强制执行输入句子的句法结构,并在以文本为条件的 2D 空间布局预测任务中取得了显著的性能提升。该损失函数有潜力在其他生成任务中使用,其中基础的调节方式是树状结构。代码、训练模型和 USCOCO 评估集将通过 GitHub 提供。
Jan, 2024
本文探讨了视觉图像和语言语义的组合结构问题,并提出了一些方法,如 WinogroundVQA, Syntactic Neural Module Distillation, Causal Tracing for Image Captioning Models,Syntactic MeanPool 和 Cross-modal Attention Congruence Regularization,以提高这种组合结构的能力。
May, 2023
本论文介绍一种使用神经符号方法验证英语句子的简化方式,其结合了现代 AI 技术,如语言模型,以解决文本摘要、问答和机器翻译等自然语言处理挑战。
Jul, 2023
训练多任务自动编码器进行语言任务,分析学习到的句子隐藏表示。加入翻译和词性解码器时,表示将显着改变。使用的解码器越多,模型根据句法相似性对句子进行聚类的效果越好。通过插值句子来探索表示空间的结构,得出很多有可识别句法结构的伪英语句子。最后,我们指出了模型的一个有意思的特性:两个句子之间的差分向量可以添加到第三个具有类似特征的句子中,以有意义的方式改变它。
Jan, 2018
本文提出一种基于神经机器翻译的新模型 Syntactic Attention,采用分离语法与语义学习的方式训练,拥有捕捉人类语言组成性结构的能力,相较于标准深度学习方法在具有组成性泛化任务的数据集 SCAN 上表现显著优异。
Apr, 2019
本研究提出了 Visually Grounded Neural Syntax Learner (VG-NSL),一种无需显式监督即可学习句法表示和结构的方法。VG-NSL 使用自然图像和标注的配对描述学习语法树结构,并在 MSCOCO 数据集和 Multi30K 数据集上展示了 VG-NSL 超越了不使用视觉元素作为辅助的无监督分析方法。
Jun, 2019
本文介绍了现代深度神经网络在机器翻译等需要广泛语言技能的工程应用中取得的卓越性能,探讨它们是否从接触的原始数据中引导出类似于人类语法知识的思想,并讨论这些工作对理论语言学的广泛影响。
Apr, 2020
本文研究了不同的方法,通过规划标题的句法结构来提高在图像说明中的组合泛化的能力。实验表明,同时建模标记和句法标签可以增强 RNN 和 Transformer 模型的泛化能力,同时提高标准指标的性能。
Jan, 2021