We propose an auto-parsing network (APN) to discover and exploit the input
data's hidden tree structures for improving the effectiveness of the
transformer-based vision-language systems. Specifically, we impose a
通过深度神经网络处理输入进一步编码为潜在变量,包括在序列中使用连续潜在变量对输入进行编码的局部自编码分析器(LAP)和在依存树中使用依赖树作为潜在变量对输入进行编码的全局自编码分析器(GAP),使用统一结构和不同的损失函数处理有标记和无标记的数据,并在 WSJ 和 UD 依存解析数据集上进行实验,展示模型能够利用未标记的数据来提高性能,并超越以前提出的半监督模型。