本文提出了一种用于图像字幕生成的可分解的相互递归生成过程,通过对语义和句法明确的因式分解,更好地保留了语义内容。所提出的组合过程需要较少的数据进行训练,并具有更好的广义和多样性。
Oct, 2018
本文提出了一种分层的模块化网络来连接视频表示和语言语义,从实体级别、谓词级别和句子级别三个层次生成视频字幕,并在 MSVD 和 MSR-VTT 基准测试中表现优异。
Nov, 2021
该研究提出了一种基于语义组合网络的图像和视频片段字幕生成方法 (SCN),采用概率建模技术和长短时记忆网络 (LSTM),并在多个基准数据集上评估和验证了其优越性能。
Nov, 2016
通过构建和学习神经模块网络,同时利用深度网络的表示能力和问题的组成语言结构,将问题分解成语言子结构,并使用这些结构动态实例化模块化网络,在具有挑战性的视觉问题回答数据集上取得了最先进的结果。
Nov, 2015
该论文研究了图像编码模型的组合推广问题,使用多任务模型相结合的方法,结合了描述生成和图像 - 句子排序,并使用重新排序的解码机制,该模型在描述未见过的概念时比现有现有模型表现更好。
Sep, 2019
提出一种基于模块化体系结构和任务驱动的深度神经网络,能够在零样本情况下进行组合推理和分类,并在广义零样本分类问题上使用小模块优于现有方法。
May, 2019
通过学习协同神经模块(CNM)来生成连接视觉编码器和语言解码器的内部模式,进而生成图像说明,实验结果显示新的 CNM 方法在图像说明领域达到了最先进水平。
Apr, 2019
我们提出了一种深度网络,能够实现文本分类的高准确率,并表现出组合行为,即网络的低层将层特定的注意力权重分配给单个单词,而高层组成有意义的短语和从句,其长度随着网络的加深而增加,直到完全组合成句子。
Jul, 2017
本文提出了一种基于 Collocate Visual-Linguistic Neural Modules (CVLNM) 的图像标题生成算法,其中包含四个编码器模块和一个解码器模块,并使用自注意力和基于词性的语法损失来提高鲁棒性和准确性,实验结果表明在 MS-COCO 数据集上取得了最新的 129.5 CIDEr-D 的表现。
Oct, 2022
本研究提出一种新颖的神经模块化方法来实现基于组合推理的问题回答,该方法不需要强监督,能自动诱导期望的子任务分解并通过共享模块链接不同的推理任务,实验表明该模型比当前先进模型更易于人类评估者解释以及预测其中间结果的成功或失败。
Jul, 2018