图像字幕和视觉问答自动解析网络

Aug, 2021

图像字幕和视觉问答自动解析网络

Auto-Parsing Network for Image Captioning and Visual Question Answering

Xu Yang, Chongyang Gao, Hanwang Zhang, Jianfei Cai

TL;DR提出了一种自动解析网络（APN），将概率图像模型（PGM）参数化为自注意层上的注意操作，以将稀疏假设合并到输入序列的分段中，从而提高基于 Transformer 的视觉语言系统的效率。

Abstract

We propose an auto-parsing network (APN) to discover and exploit the input data's hidden tree structures for improving the effectiveness of the transformer-based vision-language systems. Specifically, we impose a

auto-parsing network probabilistic graphical model transformer-based vision-language systems captioning visual question answering

发现论文，激发创造

基于输入的自适应生成网络用于冻结视觉转换器

本论文介绍了一种基于视觉提示学习的模型适应方法，提出了 Prompt Generation Network (PGN) 网络，通过从端到端学习的词汇表中采样生成高性能、与输入相关的提示，从而使得预先训练的模型更适应不同的数据集。实验表明，PGN 在 12 个数据集上均优于以前的方法，并且在 5 个数据集上甚至优于全微调，而只需要 100 倍以下的参数。

Oct, 2022

具有潜在树状注意力的神经机器翻译

我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型，利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构，从而训练出在字符级数据集中相当不错的分割和浅层解析表现，接近注意力基准。

Sep, 2017

半监督自编码投影依存分析

通过深度神经网络处理输入进一步编码为潜在变量，包括在序列中使用连续潜在变量对输入进行编码的局部自编码分析器（LAP）和在依存树中使用依赖树作为潜在变量对输入进行编码的全局自编码分析器（GAP），使用统一结构和不同的损失函数处理有标记和无标记的数据，并在 WSJ 和 UD 依存解析数据集上进行实验，展示模型能够利用未标记的数据来提高性能，并超越以前提出的半监督模型。

Nov, 2020

一种基于模仿学习的无监督解析方法

我们提出了一种模仿学习的无监督句法分析方法，将 PRPN 诱导的句法知识转移到带有离散句法分析操作的 Tree-LSTM 模型上，并通过 Gumbel-Softmax 训练不断优化其策略以实现更好的语义目标。在 All-NLI 数据集上进行实验，证明我们的方法在句法得分上超过了基准模型，包括 PRPN。

Jun, 2019

通过联合学习句法和词汇进行神经语言建模

本文提出了一种新型的神经语言模型 Parsing-Reading-Predict Networks（PRPN），利用其特定的神经网络结构能够自动识别未标注的句子的句法结构，并利用它来学习更好的语言模型。实验证明，该模型能够发现底层的句法结构，并在单词 / 字符水平的语言模型任务上取得了最先进水平。

Nov, 2017

基于部件分组网络的实例级人体部位划分

本论文提出了一种基于 Part Grouping Network 的多人解析方法，通过二元子任务实现语义部分分割与实例感知边缘检测，并在多个数据集上实现了优于当前状态 of-the-art 的表现。

Aug, 2018

主动预测编码网络：解决学习参考框架和部分整体层次的神经方案

本文介绍了 Active Predictive Coding Networks（APCNs），一种新的神经网络类别，用于解决神经网络如何学习对象的内在参考框架并将视觉场景解析为部分整体层次结构的主要问题。

Jan, 2022

使用图形注意力网络的超像素图像分类

本研究提出了使用图神经网络模型进行图像分类的方法，将输入图像转换为区域邻接图，在该图中，区域是超像素，边连接相邻超像素。实验表明，将图卷积与自我关注机制相结合的图注意力网络（GATs）优于其他图神经网络模型。

Feb, 2020

神经重述生成中的连续细化分解

本文提出了一种连续分解的细粒度建模方法，名为 C-DNPG，并在句子编码过程中引入了 GA-Attention 机制，用于提高神经释义生成的效果。该方法在 Quora 问题和 Twitter 链接两个基准测试中都取得了显著的优势和最佳效果，并且在 qualitive 分析中表现良好。

Sep, 2022

深层分层解析用于语义分割

本文提出了一种基于学习的场景解析方法，通过逐层递归的上下文传播方式，以图像中的超像素为分类基础进行解析，并利用 MRF 模型建模结果的层次依赖关系从而实现对 Stanford Background，SIFT-Flow 和 Daimler urban 数据集的最新性能。

Mar, 2015