一种自上而下的神经结构,用于文本级别的议论语言结构分析
本文研究利用Rhetorical Structure Theory和递归神经网络(使用新提出的attention机制)来加强文本分类的方法,实验结果表明其优势和劣势。
Feb, 2017
使用神经框架和指针网络,基于Rhetorical Structure Theory (RST)的句子级别的语篇分析提出了一种高效的分析方法。基于分段器和分析器的性能表现显示出此方法具有优势且逼近人类认知水平。
May, 2019
这篇论文提出了一个简单但高精度的RST语篇分析器,采用最近的上下文语言模型,表现出两个重要数据集,RST-DT和Instr-DT的最新技术性能。研究人员还表明,在最近可用的大规模“银标准”话语树库MEGA-DT上预训练我们的分析器可以提供更大的性能改进,这为话语分析领域提供了一种新的有前途的研究方向。
Nov, 2020
研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法,并表明这两种方法即使在有限的训练数据下也有效,并且在所有子任务上实现了跨语言、文档级的篇章分析性能。
Dec, 2020
本研究介绍了一种自上而下的话语分析方法,该方法的目标是将文档迭代地分段成个体话语单元,这种方法不仅消除了解码器,而且减少了划分点的搜索空间,同时使用了LSTM模型,在全指标下达到了最新的RST分析结果。
Feb, 2021
本文提出了一种基于分裂决策的顶级自上而下的端到端文档级修辞结构理论(RST)框架下的论述解析方式,并采用seq2seq网络建模分离决策,无需依赖分段,融合高分树搜索算法得到最佳树结构,实验结果表明该解析器在端对端解析和使用黄金分段分析方面表现出色,且无需使用手工特征,速度更快,易于适应新的语言和领域。
May, 2021
本篇论文探讨了一种强有力的基准线,通过将现有的简单解析策略(自上而下和自下而上)与各种基于Transformer的预先训练的语言模型进行集成,实现了RST风格的话语解析模型的推广和进一步发展。实验结果表明,解析性能强烈依赖预先训练的语言模型,尤其是DeBERTa对自下而上解析器表现的大幅提升。此外,我们还发现具有跨度屏蔽方案的语言模型特别能提高解析性能。
Oct, 2022
本文提出了GCDT,这是目前最大的汉语层次化语篇树库,基于修辞结构理论,覆盖五种文本类型,使用与当代英语RST树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系,本文还介绍了这个数据集的分析实验,包括中英文RST解析和在英语GUM数据集上的RST解析,其中包括最先进(SOTA)的中文RST解析分数。
Oct, 2022
通过使用主题结构和教师-学生模型的标签转换和Oracle注释,我们提出了一种远程监督的框架,用于解决在领域内和领域外任务之间间隔较大的问题。在MCDTB和RST-DT数据集上,我们的方法都表现出了最佳的性能。
May, 2023
本文研究了具有数十亿参数的解码器预训练大型语言模型(LLMs)对修辞结构理论(RST)的语篇分析的影响,并且在基于自上而下和自下而上策略的语篇解析过程中,将此解析过程转化为LLMs可以处理的提示,并通过Llama 2进行了微调。实验结果表明,具有700亿参数的Llama 2在自下而上策略上获得了领先的成绩,相较于现有的RST-DT训练的解析器具有显著的差异。此外,在RST-DT上评估时,我们的解析器表现出了一定的泛化能力,尽管是使用GUM语料库进行训练,但获得了与使用RST-DT训练的现有解析器类似的性能。
Mar, 2024