Dec, 2023

从冗长到简洁:关于自然语言处理技术驯服长句的系统文献综述

TL;DR通过对长句子的问题进行调查,本文系统地回顾并分类了两种解决长句子问题的主要方法:句子压缩和句子拆分。文章指出,自 2005 年以来,对这一领域的兴趣呈增长趋势,尤其在 2017 年后增长明显。当前的研究主要以受监督的方法为主,但在弱监督和自监督技术方面存在较大的空白,表明这一领域尤其在数据有限的领域仍有进一步研究的机会。本文将最具代表性的方法进行分类和归组,并在常见的句子压缩和拆分数据集上进行比较评估分析。最后,本文讨论了当前方法存在的挑战和限制,并为未来的研究方向提供了宝贵的洞察。该调查旨在作为解决长句子复杂性的综合资源,旨在使研究人员在这一领域取得进一步的进展,直到长句子不再成为有效交流的障碍。