ACLOct, 2022

GCDT:一个适用于多类型和多语种篇章分析的汉语 RST 树库

TL;DR本文提出了 GCDT,这是目前最大的汉语层次化语篇树库,基于修辞结构理论,覆盖五种文本类型,使用与当代英语 RST 树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系,本文还介绍了这个数据集的分析实验,包括中英文 RST 解析和在英语 GUM 数据集上的 RST 解析,其中包括最先进(SOTA)的中文 RST 解析分数。