基于深度上下文自训练的低资源依存句法分析
本篇论文介绍了一种基于语言模型的 seq2seq 体系结构,重点介绍了少样本语义解析,并基于非注释数据引入联合训练、有约束的解码、自训练和重新表述这四种技术进行了自动方法来提高语义解析性能。结果表明,该方法在夜间数据集上提供了新的最优结果,并在新的语义解析数据集上提供了非常令人信服的少样本结果。
Apr, 2022
本研究提出了一种新方法,使用情感分类的远程监督来生成丰富数据进行 RST 风格讨论结构预测,该方法结合了一种基于神经网络的多实例学习和一种 CKY-style 树生成算法,结果表明该解析器在跨领域讨论结构预测方面表现出色。
Oct, 2019
这篇论文提出了一个简单但高精度的 RST 语篇分析器,采用最近的上下文语言模型,表现出两个重要数据集,RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明,在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进,这为话语分析领域提供了一种新的有前途的研究方向。
Nov, 2020
本文介绍了一种新方法,使用 BART 进行表征学习并使用基于优化的元学习方法来提高到低资源域的泛化性能,以使任务导向的语义解析器适应低资源域,这种方法在新收集的多领域任务导向语义解析数据集(TOPv2)方面明显优于所有基线方法。
Oct, 2020
通过结合大型语言模型(LLM)生成领域特定原始语料库的迭代过程,以及引入语法规则指导 LLM 生成原始语料库并建立伪实例选择标准等方法,本研究探索了自训练方法在跨领域句法分析中的应用,实验证明,自训练方法配备 LLM 在句法分析任务上胜过传统方法,且通过语法规则和置信度标准选择伪数据的组合效果最佳。
Nov, 2023
本研究针对资源匮乏的语言环境下,针对高度分析形态的自然语言(MRLs)的依赖句法分析任务,提出了预训练的简单辅助任务方法,实验结果表明,提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高
Feb, 2021
本研究介绍了 Baidu 依存分析器(DDParser),一个新的中文依存分析器,它是基于大规模手动标注数据集 ——Baidu 中文树库(DuCTB)训练的。DDParser 使用基于图的双仿射解析器,并对中文数据集的特征进行了调整,采用两个测试集测试,取得了 92.9%和 86.9%的标记连接分数(LAS),并取得了最先进的结果,并在 https URL 公开发布。
Sep, 2020
本研究采用来自多任务学习的自动课程学习方法,旨在动态优化对于语法分析模型下游任务的性能,从而实现在低资源语言中的零样本情况下的跨语言迁移,表明这种方法比均匀和大小成比例采样更好。
Mar, 2022