EMNLPFeb, 2022

ClidSum: 跨语言对话摘要的基准数据集

TL;DR介绍了一个用于在对话文档上建立跨语言摘要系统的基准数据集 ClidSum,该数据集包含来自两个子集(即 SAMSum 和 MediaSum)的 67k + 对话文档和 112k + 不同目标语言的注释摘要。 并在基于 ClidSum 提出了两个监督和半监督场景的基准设置,接着构建了各种基线系统和在 ClidSum 上进行了广泛的实验来提供更深入的分析。最后提出了 mDialBART,该模型通过进一步预训练扩展了 mBART-50(一种多语言 BART),在实验结果中优于 ClidSum 上的强流水线模型,提出了这项任务当前面临的特定挑战并为未来研究提供了多个有前途的方向。