Dec, 2023

在抽象文本摘要中利用表征偏差进行数据去噪

TL;DR本文旨在离散化抽象文本摘要模型的向量空间,以理解输入嵌入空间和模型编码空间之间的特征学习。我们通过聚类技术来学习模型样本空间的多样性,以及数据点如何从嵌入空间映射到编码空间,从而提出了一种度量方法来过滤冗余数据点,使模型更强大且更节约数据。我们使用 Rouge、BERTScore、FEQA 和金字塔分数等定量指标来对我们提出的方法进行基准测试,并量化阻碍模型从各种输入样本中学习多样性的原因。