使用 ConvNets 的快速阅读理解

ICLRNov, 2017

Fast Reading Comprehension with ConvNets

Felix Wu, Ni Lao, John Blitzer, Guandao Yang, Kilian Weinberger

TL;DR本文介绍了一种卷积架构，用简单的扩张卷积单元代替循环单元，取得了与循环神经网络同等水平的结果，在回答问题方面获得了多达两个数量级的加速。

Abstract

State-of-the-art deep reading comprehension models are dominated by recurrent neural nets. Their sequential nature is a natural fit for language, but it also precludes parallelization within an instances and often becomes the bottleneck for deploying such models to latency critical sce

deep reading comprehension recurrent neural nets convolutional architecture question answering tasks speedups

发现论文，激发创造

用于文本分类的深层卷积神经网络

本文介绍了一种新的基于 VDCNN 的文本处理体系结构，通过使用 29 个卷积层，仅使用小型卷积和池化操作，该模型的性能得到了提高，并且在多个公共文本分类任务上，相对于现有模型，且在文本处理中使用非常深的卷积神经网络实现了最先进水平。

Jun, 2016

长期循环卷积网络用于视觉识别和描述

研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果，针对视频识别、图像描述、检索以及视频叙事方面的问题，开发出一种新颖的循环卷积架构，该架构可以训练端到端，可以同时学习时间动态和卷积感知表示，并具有学习长期依赖性的能力。实验结果证明，循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。

Nov, 2014

比较基于注意力机制的卷积神经网络和循环神经网络：在机器阅读理解方面的成功与局限性

提出基于比较 - 聚合框架和两阶段注意力的机器阅读理解模型，在 MovieQA 问答数据集上取得了最新成果。通过生成对抗样本研究模型的限制和卷积神经网络与递归神经网络之间的差异，并通过分析与人类推理的差异来评估模型的泛化能力。

Aug, 2018

QANet: 将局部卷积和全局自注意力相结合用于阅读理解

本文提出一种名为 QANet 的新型机器阅读和问答架构，它没有使用循环神经网络，而是仅由卷积神经网络和自注意力机制组成，可在训练和推理期间实现更快的速度，并在测试集上实现了 84.6 F1 得分，超过了最佳发布 F1 得分 81.8。

Apr, 2018

长篇文档的分层问答

基于强化学习和词向量，提出了一种可以高效处理长篇文档的问答框架，该框架结合了快速筛选相关句子和精读相关句子的策略，并在 Wikireading 的一个挑战性子集和一组新的数据集上实现了最新的性能，同时使模型的速度提高 3.5 倍至 6.7 倍。

Nov, 2016

注意力求和读者网络的文本理解

该研究提出了一种使用注意力机制直接从文本中选取答案的模型，特别适用于以文本中某个单词为答案的问题，并在多个数据集上取得了新的最优成绩。

Mar, 2016

学习文本浏览

本文针对 RNN 读取长文本过慢的问题，提出一种改进的 LSTM 模型，在保持相同或者更好的准确性的情况下，速度比标准的序列 LSTM 快多达 6 倍，适用于数字预测、情感分析、新闻文章分类和自动问答任务。

Apr, 2017

基于循环和卷积神经网络的连续短文本分类

本文介绍了一种基于递归神经网络和卷积神经网络的模型，可以在分类下一个短文本时利用前面的短文本，该模型在三个不同的数据集上取得了最先进的对话行为预测结果。

Mar, 2016

从零开始的文本理解

文章说明了我们可以应用深度学习来理解文本，从字符级到抽象文本概念，使用时间卷积网络 (ConvNets)。我们将 ConvNets 应用于各种大规模数据集，包括本体分类，情感分析和文本分类。我们展示了时间 ConvNets 可以在不需要任何人类语言的词语，短语，句子或任何其他句法或语义结构的知识下实现惊人的性能。证据表明，我们的模型可以用于英文和中文。

Feb, 2015

准循环神经网络

本文介绍了一种新型的神经序列建模方法 - 准循环神经网络（QRNNs），通过卷积层与最小化的循环池化函数的交替使用，QRNNs 可以在高度并行的情况下完成对序列数据的建模，并且在语言建模、情感分类和字符级神经机器翻译等任务中显示出比基于 LSTM 的架构更优异的性能。

Nov, 2016