从标记文件中提取突出的句子

Dec, 2014

Extraction of Salient Sentences from Labelled Documents

Misha Denil, Alban Demiraj, Nando de Freitas

TL;DR本文介绍了一种分层卷积文档模型，其架构旨在支持文档结构的内省，使用计算机视觉文献中的可视化技术来识别和提取主题相关的句子，同时引入了一种新的可扩展的自动句子提取系统的评估技术，避免了耗时的人工验证数据注释的需要。

Abstract

We present a hierarchical convolutional document model with an architecture designed to support introspection of the document structure. Using this model, we show how to use visualisation techniques from the comp

hierarchical convolutional document model visualisation techniques automatic sentence extraction systems topic-relevant sentences scalable evaluation technique

发现论文，激发创造

基于句子和单词提取的神经摘要

论文提出了一种基于神经网络和连续句子特征的数据驱动型抽取式摘要方法，采用层级文档编码器和基于注意力机制的提取器的通用框架，能够训练不同的摘要模型（提取句子或单词），在大规模语料库上进行实验结果表明，该方法在不需要语言注解的情况下取得了与现有技术相当的效果。

Mar, 2016

神经潜在抽取式文档摘要

本篇文章提出一种基于潜变量的抽取式文本摘要模型，通过使用句子作为潜变量和检索金标准摘要来改善基于启发式标签的抽取式模型，并在 CNN/Dailymail 数据集上得到了良好的结果。

Aug, 2018

用于提取式文档摘要的分层结构自注意模型 (HSSAS)

提出了一种基于分层结构自注意力机制的新模型，将摘要任务作为分类问题处理，并通过信息内容、显著性、新颖性和位置表示等特征进行预测，实验结果表明该模型在 CNN / Daily Mail 和 DUC 2002 数据集上胜过当前最先进的抽取性模型。

May, 2018

联合学习打分和选择句子的神经文档摘要

在这篇论文中，我们提出了一种新颖的端到端神经网络框架，通过联合学习对句子进行评分和选择来实现摘要提取。在 CNN / Daily Mail 数据集上的实验证明，我们的方法比现有的抽取式摘要模型表现出更好的效果。

Jul, 2018

层次化的注意力混合神经网络用于文档分类

本文提出了一种基于卷积神经网络、门控递归单元和注意机制的组合方法，用于文档分类任务，并通过层次结构表示提取了更有意义、更可泛化和抽象的特征，改善了当前基于注意力机制的文档分类方法的结果。

Jan, 2019

利用预训练的层次 Transformer 进行无监督抽取式摘要

本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法，并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型，且不太依赖于句子位置。

Oct, 2020

基于层次模型的方面情感分析

通过建模评论中的句子之间的相互依赖关系，我们提出了一种基于分层双向 LSTM 的情感分析方法，在五个多语种、多领域的数据集上取得了竞争状态下最先进结果，并优于其它两种基线模型，而且不需要使用手工特征或外部资源。

Sep, 2016

基于先验的高分辨率分层语义分割在文档结构提取中的应用

本研究基于层次语义分割网络，提出了一种基于先验模型的深层次 CNN 网络结构，用于高分辨率文档图像的结构提取，通过在文档图像中将其分成互相重叠的水平条带进行分割，本网络得到了优秀的效果，我们还新建了人工标注的文档表单数据集并在此数据集上进行实验，对比不同分割 baseline 方法证明了本网络算法在分层结构提取上的高效性。当前，此算法已用于 Adobe 的 AEM Forms，实现了纸质和 PDF 表单的自动转换为现代 HTML 表单。

Nov, 2019

使用单个卷积神经网络建模，可视化和摘要文档

通过提出一种基于动态卷积神经网络的模型，在不需要特征工程的情况下，能够从低级别的词汇特征到高级别的语义概念逐级学习，从而有效地在文档建模任务中学习到文档的含义，同时提出一种新的可视化技术，能够提供有关文档网络学习过程的见解，产生一种引人注目的文本自动摘要系统。

Jun, 2014

大规模零样本学习的文档表示重访

本文讨论了使用语义表达来识别未见过的物体，提出了一种基于文档的语义表示方法，通过半自动机制提取并加权了文档中包含的可视信息，形成了语义表示，相比现有方法在 ImageNet 数据集上表现更佳。

Apr, 2021