Aug, 2019
早并不总是更好:自动摘要中文本和系统偏见的子方面分析
Earlier Isn't Always Better: Sub-aspect Analysis on Corpus and System
Biases in Summarization
TL;DR对于神经摘要系统的明显改进及其依赖的语料库的基础逻辑尚未得到广泛探讨,因此本文提出了摘要的三个子方面:位置、重要性和多样性,并针对九个不同的摘要语料库(例如新闻、学术论文、会议纪要、电影剧本和书籍)进行了广泛分析。研究发现,尽管位置在新闻报道中存在重大偏见,但在学术论文和会议纪要等其他领域不是这种情况。此外,我们的经验证明不同类型的自动摘要系统(例如基于神经网络)由不同程度的子方面组成。因此,本研究提供了有关在收集新的摘要数据集或开发新系统时考虑基础子方面的有用信息。