为什么话语分析无法概括?关于数据多样性影响的彻底调查
研究了通过利用多语言向量表示和采用源内容的分段级别翻译建立神经交叉语言篇章分析器的两种方法,并表明这两种方法即使在有限的训练数据下也有效,并且在所有子任务上实现了跨语言、文档级的篇章分析性能。
Dec, 2020
本文针对英语 RST 话语树库,提出了跨语言话语分析方法,并在西班牙语、德语、巴斯克语、荷兰语和巴西葡萄牙语中实验。该方法简单易行且有效,可以帮助更好地理解文件中的信息流和论证结构。
Jan, 2017
这篇论文提出了一个简单但高精度的 RST 语篇分析器,采用最近的上下文语言模型,表现出两个重要数据集,RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明,在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进,这为话语分析领域提供了一种新的有前途的研究方向。
Nov, 2020
本文提出一个基于文档级别的多语言 RST 话语分析框架,该框架将 EDU 分割和话语树解析结合在一起,并且引入了跨语言翻译增强策略,以支持多语言解析并改善其领域通用性,实验结果表明,该模型在所有子任务中实现了文档级别多语言 RST 解析的最新性能。
Oct, 2021
本篇论文探讨了一种强有力的基准线,通过将现有的简单解析策略(自上而下和自下而上)与各种基于 Transformer 的预先训练的语言模型进行集成,实现了 RST 风格的话语解析模型的推广和进一步发展。实验结果表明,解析性能强烈依赖预先训练的语言模型,尤其是 DeBERTa 对自下而上解析器表现的大幅提升。此外,我们还发现具有跨度屏蔽方案的语言模型特别能提高解析性能。
Oct, 2022
通过研究探讨了自然语言处理中层次结构篇章分析在修辞结构理论框架中的困难,并建立了与之相关的因素模型,其中隐含的篇章关系、识别远程关系的挑战、词汇外的项目等是现有工作中的解析难点。通过发布两个带有明确正确和干扰篇章标记的英文测试集,以评估这些变量的相对重要性。研究结果表明,如同浅层篇章分析,明示 / 隐含区别起到了一定作用,但远程依赖是主要挑战,而词汇重叠的缺乏则并非问题,至少对于领域内解析而言。最终的模型能够 76.3% 的准确率预测底向上解析器的错误和 76.6% 的准确率预测顶向下解析器的错误。
Sep, 2023
本研究探讨使用不同语料库训练的最新词性标注模型在 Reddit 论坛讨论帖子等用户生成数据中的表现,发现即便少量的 in-domain 数据,也能胜过大量来自其他 Web 领域的数据,同时也提出多种错误类型的分类,并使用集成学习法提高了模型的性能。
Apr, 2020
本文提出了第一个用生成模型进行 RST 解析的文档级 RNN 语法,通过一种新的 beam search 算法,在而不展示左分支的偏差下,在未标注和标注的 F1 值上分别提高 6.8 和 2.9,超越了所有不使用额外训练数据的最新复制研究中发布的解析器,并且优于具有相同特征的判别模型 2.6F1 分。
Sep, 2019
本研究提出了一种新方法,使用情感分类的远程监督来生成丰富数据进行 RST 风格讨论结构预测,该方法结合了一种基于神经网络的多实例学习和一种 CKY-style 树生成算法,结果表明该解析器在跨领域讨论结构预测方面表现出色。
Oct, 2019