Jul, 2024

MixSumm: 低资源抽取式文本摘要的基于主题的数据增强利用LLMs

TL;DR在本研究中,我们提出了一种名为MixSumm的低资源提取式文本摘要方法,该方法在开源语言模型LLaMA-3-70b上生成多主题混合文档,并在生成的数据集上训练一个摘要模型。我们使用ROUGE分数和L-Eval作为评估方法,通过在TweetSumm、WikiHow和ArXiv/PubMed数据集上进行的广泛实验证明,我们的LLM数据增强框架在低资源提取式摘要方面优于最近的基于提示的方法。此外,我们的结果还展示了从LLaMA-3-70b到小型BERT提取式摘要器的有效知识蒸馏。