基于深度上下文自训练的低资源依存句法分析

ACLNov, 2019

基于深度上下文自训练的低资源依存句法分析

Deep Contextualized Self-training for Low Resource Dependency Parsing

Guy Rotman, Roi Reichart

TL;DR本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST)，利用序列标注的表示模型来解决大量标注数据的问题，并通过控制机制将这些模型集成到基础解析器中，并在多语言实验中取得了优异的成绩。

Abstract

neural dependency parsing has proven very effective, achieving state-of-the-art results on numerous domains and languages. Unfortunately, it requires large amounts of labeled data, that is costly and laborious to create. In this paper we propose a →

neural dependency parsing self-training algorithm deep contextualized self-training representation models semi-supervised training methods

发现论文，激发创造

用非常少的数据训练自然化语义解析器

本篇论文介绍了一种基于语言模型的 seq2seq 体系结构，重点介绍了少样本语义解析，并基于非注释数据引入联合训练、有约束的解码、自训练和重新表述这四种技术进行了自动方法来提高语义解析性能。结果表明，该方法在夜间数据集上提供了新的最优结果，并在新的语义解析数据集上提供了非常令人信服的少样本结果。

Apr, 2022

利用来自情感的远程监督来预测话语结构

本研究提出了一种新方法，使用情感分类的远程监督来生成丰富数据进行 RST 风格讨论结构预测，该方法结合了一种基于神经网络的多实例学习和一种 CKY-style 树生成算法，结果表明该解析器在跨领域讨论结构预测方面表现出色。

Oct, 2019

发掘神经言语解析器的能力 —— 使用大规模预训练的上下文和结构感知方法

这篇论文提出了一个简单但高精度的 RST 语篇分析器，采用最近的上下文语言模型，表现出两个重要数据集，RST-DT 和 Instr-DT 的最新技术性能。研究人员还表明，在最近可用的大规模 “银标准” 话语树库 MEGA-DT 上预训练我们的分析器可以提供更大的性能改进，这为话语分析领域提供了一种新的有前途的研究方向。

Nov, 2020

面向组合式任务的低资源域自适应语义解析

本文介绍了一种新方法，使用 BART 进行表征学习并使用基于优化的元学习方法来提高到低资源域的泛化性能，以使任务导向的语义解析器适应低资源域，这种方法在新收集的多领域任务导向语义解析数据集（TOPv2）方面明显优于所有基线方法。

Oct, 2020

有限资源条件下的语义解析

这篇论文探讨了语义解析中的挑战，特别关注有限数据和计算资源的情况，提供了使用自动数据处理、知识转移、主动学习和持续学习等技术的解决方案。

Sep, 2023

基于 LLM 增强的跨领域短语结构句法分析的自学习

通过结合大型语言模型（LLM）生成领域特定原始语料库的迭代过程，以及引入语法规则指导 LLM 生成原始语料库并建立伪实例选择标准等方法，本研究探索了自训练方法在跨领域句法分析中的应用，实验证明，自训练方法配备 LLM 在句法分析任务上胜过传统方法，且通过语法规则和置信度标准选择伪数据的组合效果最佳。

Nov, 2023

少量预训练大有裨益：针对低资源词形丰富语言的依存句法分析任务案例研究

本研究针对资源匮乏的语言环境下，针对高度分析形态的自然语言（MRLs）的依赖句法分析任务，提出了预训练的简单辅助任务方法，实验结果表明，提出的方法使得在 10 种低资源语言环境下实验得到了稳定的提高

Feb, 2021

利用自训练自注意力模型提高失流畅侦测

本研究证明自训练是一种半监督技术，它可以提高基于自我关注的解析器在断续检测方面的性能，并且展示了模型集成进一步提高断续检测性能的结果。

Apr, 2020

基于大规模数据集的实用中文依存句法分析器

本研究介绍了 Baidu 依存分析器（DDParser），一个新的中文依存分析器，它是基于大规模手动标注数据集 ——Baidu 中文树库（DuCTB）训练的。DDParser 使用基于图的双仿射解析器，并对中文数据集的特征进行了调整，采用两个测试集测试，取得了 92.9％和 86.9％的标记连接分数（LAS），并取得了最先进的结果，并在 https URL 公开发布。

Sep, 2020

最劣情况感知自动课程学习下的零样本依存句法分析

本研究采用来自多任务学习的自动课程学习方法，旨在动态优化对于语法分析模型下游任务的性能，从而实现在低资源语言中的零样本情况下的跨语言迁移，表明这种方法比均匀和大小成比例采样更好。

Mar, 2022