汉语话语注释参考手册
本文提出了 GCDT,这是目前最大的汉语层次化语篇树库,基于修辞结构理论,覆盖五种文本类型,使用与当代英语 RST 树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系,本文还介绍了这个数据集的分析实验,包括中英文 RST 解析和在英语 GUM 数据集上的 RST 解析,其中包括最先进(SOTA)的中文 RST 解析分数。
Oct, 2022
我们提出了增强修辞结构理论(eRST),这是一种基于修辞结构理论(RST)扩展的计算化话语分析的新理论框架。该框架包括具有树破碎、非投射和并发关系的话语关系图,以及提供解释性的隐式和显式信号来解释我们的分析。我们调查了 RST 和其他现有框架的缺点,如分段话语表示理论(SDRT)、宾夕法尼亚话语树库(PDTB)和话语依赖,并使用所提出的理论中的构造来解决这些问题。我们为数据提供注释、搜索和可视化工具,并介绍和评估了一个根据我们的框架进行注释的英语语料库,包括 12 种口语和书面体样式,200,000 个单词。最后,我们讨论了在我们的框架中的数据自动解析、评估指标和应用。
Mar, 2024
基于修辞结构理论的话语解析(RST-DP)探索了子句、句子和大文本跨度如何组成整个话语,并将修辞结构呈现为一个分层树。现有的 RST 解析流水线在构建修辞结构时缺乏对文档级内容结构的了解,导致在预测大文本跨度的话语关系时性能相对较低。为了识别高级内容相关信息在促进话语关系识别方面的价值,我们提出了一种新颖的 RST-DP 流水线,该流水线结合了从新闻话语建模任务中得出的具有结构意识的新闻内容句子表示。通过仅添加了少量的附加层,这个增强的流水线在各种 RST 解析指标上表现出了很有前景的性能。
Sep, 2023
研究了汉语对话级别的依存分析,利用句法依存和修辞结构理论的思想,开发了一个人工注释的高质量语料库,探索了零样本和少样本场景,并考虑采用基于信号检测的方法将先前存在的句法依存转化为单元话语之间的未见依存的场景。通过单视图和多视图数据选择来获取可靠的伪标签实例,实验结果表明了这些基线的有效性。同时,我们还讨论了有关数据集和方法的几个关键点。
May, 2023
本文介绍了一种基于 Penn Discourse TreeBank 标注语言相关特征的新资源,通过对 TED Talks 进行标注,为中英文翻译和语言技术的发展做出了贡献。该资源注重对计划性口语独白的篇章层面语言特征的标注,而不仅仅局限于书面语,基于多位标注者的协商,该标注方案的可靠性得到了证实。
Mar, 2020
本文提出了一个新型的文本摘要模型,RSTformer,综合考虑了修辞关系的类型和不确定性,采用基于文档级修辞结构的 RST-attention 机制,取得了显著的性能优势。
May, 2023
使用神经框架和指针网络,基于 Rhetorical Structure Theory (RST) 的句子级别的语篇分析提出了一种高效的分析方法。基于分段器和分析器的性能表现显示出此方法具有优势且逼近人类认知水平。
May, 2019
本文描述了一种 RST 分割和解析系统,该系统可以快速、稳健地处理新闻文章或文章等短文档,并将各种先前工作的模型和特征集进行了适应,其准确性接近于最先进的水平。
May, 2015
利用 Rhetorical Structure Theory (RST) 树和关系对话语连贯性进行评估,表明在分类连贯性方面增加银标准 RST 特征可以提高准确性,我们开发了一个 tree-recursive neural model,即 RST-Recursive,利用了由最先进的 RST 解析器产生的文本 RST 特征。在 Grammarly Corpus for Discourse Coherence (GCDC) 上评估我们的方法,并展示了当与现有先进技术结合使用时,我们可以在此基准测试中实现新的技术水平的准确性。此外,单独部署时,RST-Recursive 具有竞争性的准确性,同时参数减少了 62%。
Sep, 2020