Apr, 2024

从新闻到摘要:构建一个用于抽取和概括式摘要的匈牙利语语料库

TL;DR训练摘要模型需要大量的训练数据。然而,对于像匈牙利语这样资源有限的语言,公开可用的模型和数据集明显稀缺。为了填补这个空白,我们的论文介绍了 HunSum-2,这是一个开源的匈牙利语语料库,适用于训练抽象和提取式摘要模型。该数据集经过了详细的清洗、预处理和去重。除了抽象摘要外,我们还使用句子相似度生成句子级标签,用于提取式摘要。我们使用收集到的数据集训练了提取式和抽象式摘要的基线模型。为了证明训练模型的有效性,我们进行了定量和定性评估。我们的数据集、模型和代码都是公开可用的,鼓励复制、进一步研究以及在各个领域进行实际应用。