GCDT：一个适用于多类型和多语种篇章分析的汉语 RST 树库

ACLOct, 2022

GCDT：一个适用于多类型和多语种篇章分析的汉语 RST 树库

GCDT: A Chinese RST Treebank for Multigenre and Multilingual Discourse Parsing

Siyao Peng, Yang Janet Liu, Amir Zeldes

TL;DR本文提出了 GCDT，这是目前最大的汉语层次化语篇树库，基于修辞结构理论，覆盖五种文本类型，使用与当代英语 RST 树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系，本文还介绍了这个数据集的分析实验，包括中英文 RST 解析和在英语 GUM 数据集上的 RST 解析，其中包括最先进（SOTA）的中文 RST 解析分数。

Abstract

A lack of large-scale human-annotated data has hampered the hierarchical discourse parsing of chinese. In this paper, we present gcdt, the largest hierarchical discourse treebank for Mandarin →

chinese hierarchical discourse parsing gcdt rhetorical structure theory multilingual embeddings

发现论文，激发创造

可扩展遥感情感监督数据生成的具有结构和核心性的 MEGA RST 话语树库

本研究提出了一种新的可扩展的方法用于自动生成论述树库，同时发布了一个新的大规模的语料库 MEGA-DT，通过多个数据集的实验表明，在 MEGA-DT 树库训练出的论述解析器相对于训练在人工注释语料库上的解析器表现得到了显著提升。

Nov, 2020

汉语话语注释参考手册

该文提供了关于中文语篇结构理论的标注的指南，并包含预处理、分割和定义篇章关系的步骤和示例，旨在促进 RST 框架的跨语言应用。

Oct, 2022

跨语言 RST 篇章分析

本文针对英语 RST 话语树库，提出了跨语言话语分析方法，并在西班牙语、德语、巴斯克语、荷兰语和巴西葡萄牙语中实验。该方法简单易行且有效，可以帮助更好地理解文件中的信息流和论证结构。

Jan, 2017

DMRST：面向文档级多语言 RST 篇章分割和解析的联合框架

本文提出一个基于文档级别的多语言 RST 话语分析框架，该框架将 EDU 分割和话语树解析结合在一起，并且引入了跨语言翻译增强策略，以支持多语言解析并改善其领域通用性，实验结果表明，该模型在所有子任务中实现了文档级别多语言 RST 解析的最新性能。

Oct, 2021

基于神经网络的 RST 方法用于衡量篇章连贯性

利用 Rhetorical Structure Theory (RST) 树和关系对话语连贯性进行评估，表明在分类连贯性方面增加银标准 RST 特征可以提高准确性，我们开发了一个 tree-recursive neural model，即 RST-Recursive，利用了由最先进的 RST 解析器产生的文本 RST 特征。在 Grammarly Corpus for Discourse Coherence (GCDC) 上评估我们的方法，并展示了当与现有先进技术结合使用时，我们可以在此基准测试中实现新的技术水平的准确性。此外，单独部署时，RST-Recursive 具有竞争性的准确性，同时参数减少了 62%。

Sep, 2020

多语言神经 RST 话语分析

研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法，并表明这两种方法即使在有限的训练数据下也有效，并且在所有子任务上实现了跨语言、文档级的篇章分析性能。

Dec, 2020

SciDTB：用于科学摘要的语篇依存树库

本文介绍了针对科技文章的 SciDTB 语料库，使用依存树结构来表示篇章中各个部分之间的关系，成为评估篇章依存解析器的基准，并提供了一些基线用以评估。

Jun, 2018

以文档级内容结构为导向的 RST 风格的篇章解析

基于修辞结构理论的话语解析（RST-DP）探索了子句、句子和大文本跨度如何组成整个话语，并将修辞结构呈现为一个分层树。现有的 RST 解析流水线在构建修辞结构时缺乏对文档级内容结构的了解，导致在预测大文本跨度的话语关系时性能相对较低。为了识别高级内容相关信息在促进话语关系识别方面的价值，我们提出了一种新颖的 RST-DP 流水线，该流水线结合了从新闻话语建模任务中得出的具有结构意识的新闻内容句子表示。通过仅添加了少量的附加层，这个增强的流水线在各种 RST 解析指标上表现出了很有前景的性能。

Sep, 2023

发掘神经言语解析器的能力 —— 使用大规模预训练的上下文和结构感知方法

这篇论文提出了一个简单但高精度的 RST 语篇分析器，采用最近的上下文语言模型，表现出两个重要数据集，RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明，在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进，这为话语分析领域提供了一种新的有前途的研究方向。

Nov, 2020

一种增强全局上下文的深度转换架构用于序列标注

本文提出了一种名为 GCDT 的序列标签模型，它采用全局上下文增强和深层转换结构来解决循环神经网络在全局信息建模和浅层连接方面的不足，通过两项标准序列标签任务的实验结果，证明该方法在 NER 和 Chunking 任务上均能超越以往最佳结果，且利用 BERT 作为附加资源可进一步提升性能。

Jun, 2019