EMNLPJun, 2015

LCSTS: 一个大型的中文短文本摘要数据集

TL;DR本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集,包含超过 200 万条中文短文本和对应的短摘要,并通过该数据集引入了基于递归神经网络的摘要生成方法,取得了良好的效果,该方法不仅显示了所提出数据集在短文本摘要研究中的有用性,也为后续研究提供了基线。