为什么话语分析无法概括？关于数据多样性影响的彻底调查

ACLFeb, 2023

为什么话语分析无法概括？关于数据多样性影响的彻底调查

Why Can't Discourse Parsing Generalize? A Thorough Investigation of the Impact of Data Diversity

Yang Janet Liu, Amir Zeldes

TL;DR在研究中，我们证明了高资源语言（如英语）在 RST 解析方面的性能并没有变得可靠，而我们使用两个最大的英语 RST 语料库在新闻领域中研究了数据多样性对解析稳定性的影响，结果表明异构训练是获得稳定且可推广模型的关键。同时，我们还提供了模型输出的误差分析和跨领域性能的研究。

Abstract

Recent advances in discourse parsing performance create the impression that, as in other NLP tasks, performance for high-resource languages such as English is finally becoming reliable. In this paper we demonstrate that this is not the case, and thoroughly investigate the impact of

discourse parsing data diversity rst parsing stability genre diversity parser architectures

发现论文，激发创造

多语言神经 RST 话语分析

研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法，并表明这两种方法即使在有限的训练数据下也有效，并且在所有子任务上实现了跨语言、文档级的篇章分析性能。

Dec, 2020

跨语言 RST 篇章分析

本文针对英语 RST 话语树库，提出了跨语言话语分析方法，并在西班牙语、德语、巴斯克语、荷兰语和巴西葡萄牙语中实验。该方法简单易行且有效，可以帮助更好地理解文件中的信息流和论证结构。

Jan, 2017

发掘神经言语解析器的能力 —— 使用大规模预训练的上下文和结构感知方法

这篇论文提出了一个简单但高精度的 RST 语篇分析器，采用最近的上下文语言模型，表现出两个重要数据集，RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明，在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进，这为话语分析领域提供了一种新的有前途的研究方向。

Nov, 2020

DMRST：面向文档级多语言 RST 篇章分割和解析的联合框架

本文提出一个基于文档级别的多语言 RST 话语分析框架，该框架将 EDU 分割和话语树解析结合在一起，并且引入了跨语言翻译增强策略，以支持多语言解析并改善其领域通用性，实验结果表明，该模型在所有子任务中实现了文档级别多语言 RST 解析的最新性能。

Oct, 2021

神经成分句法分析器的跨域泛化

使用神经解析器和结构化输出预测来实现在零 - shot 设置下对其他领域进行泛化的研究，并在英语和汉语语料库上获得了最新的解析结果。

Jul, 2019

一种简单且强大的端到端神经 RST 风格篇章分析基线

本篇论文探讨了一种强有力的基准线，通过将现有的简单解析策略（自上而下和自下而上）与各种基于 Transformer 的预先训练的语言模型进行集成，实现了 RST 风格的话语解析模型的推广和进一步发展。实验结果表明，解析性能强烈依赖预先训练的语言模型，尤其是 DeBERTa 对自下而上解析器表现的大幅提升。此外，我们还发现具有跨度屏蔽方案的语言模型特别能提高解析性能。

Oct, 2022

英语 RST 解析中的难点是什么？通过预测模型进行错误分析

通过研究探讨了自然语言处理中层次结构篇章分析在修辞结构理论框架中的困难，并建立了与之相关的因素模型，其中隐含的篇章关系、识别远程关系的挑战、词汇外的项目等是现有工作中的解析难点。通过发布两个带有明确正确和干扰篇章标记的英文测试集，以评估这些变量的相对重要性。研究结果表明，如同浅层篇章分析，明示 / 隐含区别起到了一定作用，但远程依赖是主要挑战，而词汇重叠的缺乏则并非问题，至少对于领域内解析而言。最终的模型能够 76.3% 的准确率预测底向上解析器的错误和 76.6% 的准确率预测顶向下解析器的错误。

Sep, 2023

一种跨类别集成方法以提高 Reddit 实体标记的鲁棒性

本研究探讨使用不同语料库训练的最新词性标注模型在 Reddit 论坛讨论帖子等用户生成数据中的表现，发现即便少量的 in-domain 数据，也能胜过大量来自其他 Web 领域的数据，同时也提出多种错误类型的分类，并使用集成学习法提高了模型的性能。

Apr, 2020

神经生成修辞结构分析

本文提出了第一个用生成模型进行 RST 解析的文档级 RNN 语法，通过一种新的 beam search 算法，在而不展示左分支的偏差下，在未标注和标注的 F1 值上分别提高 6.8 和 2.9，超越了所有不使用额外训练数据的最新复制研究中发布的解析器，并且优于具有相同特征的判别模型 2.6F1 分。

Sep, 2019

利用来自情感的远程监督来预测话语结构

本研究提出了一种新方法，使用情感分类的远程监督来生成丰富数据进行 RST 风格讨论结构预测，该方法结合了一种基于神经网络的多实例学习和一种 CKY-style 树生成算法，结果表明该解析器在跨领域讨论结构预测方面表现出色。

Oct, 2019