利用自训练自注意力模型提高失流畅侦测

Apr, 2020

利用自训练自注意力模型提高失流畅侦测

Improving Disfluency Detection by Self-Training a Self-Attentive Model

Paria Jamshid Lou, Mark Johnson

TL;DR本研究证明自训练是一种半监督技术，它可以提高基于自我关注的解析器在断续检测方面的性能，并且展示了模型集成进一步提高断续检测性能的结果。

Abstract

self-attentive neural syntactic parsers using contextualized word embeddings (e.g. ELMo or BERT) currently produce state-of-the-art results in joint parsing and →

self-attentive neural syntactic parsers contextualized word embeddings self-training semi-supervised technique disfluency detection

发现论文，激发创造

自训练与自监督学习相结合的非监督式病态语检测

本文提出了一种无监督学习的方法用于发现语言中的断续性，该方法使用廉价的无标注文本语料库，并借鉴了 Noisy Student Training 和上下文化词嵌入的思路，在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。

Oct, 2020

多任务自监督学习用于消除语注检测

本文针对训练数据短缺的问题，提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练，并利用有标注的训练数据进行微调的方法，达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时，我们的方法可将误差降低 21%。

Aug, 2019

自我注意力和预训练的多语言组成句法分析

通过对各种语言和预训练条件进行的实验比较表明，联合无监督预训练和微调是一种有效的方法，可以在各种语言上提高句法分析的性能并实现新的最先进的结果。

Dec, 2018

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

利用自我监督方法增强语义理解，用于抽象对话摘要

本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务，包括抽象概括，并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型，并在最近引入的 SAMSum 语料库中经验性地评估，证明我们的方法在抽象概括中做出了改进。

Sep, 2022

自注意力编码器进行的组成成分句法分析

通过将 LSTM 编码器替换为自注意力机制，能够提高最先进的判别型成分解析器的性能，特别是当用预训练的字词表示时，而且这种方法在 SPMRL 数据集的大部分语言上的性能优于以前的最佳结果。

May, 2018

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

智能代理中口语理解的无监督迁移学习

通过使用语言模型的嵌入（ELMo）技术，提出了一种更快、更简单的无监督预训练方法 ELMo-Light（ELMoL），在大量未标记的句子上进行的无监督预训练，在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好，并且当域内的标记样本仅有 1000 个时，我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。

Nov, 2018

从上下文化单词表示中无监督地提取句法信息

本文讲述了如何通过自动生成语义不同但结果相似的句子组集来学习一种转换，以去除词法语义但保留结构信息，并证明这种方法在结构聚类方面的效果优于词汇语义聚类方法，最终在少样本解析任务中优于原始上下文化语言表示。

Oct, 2020

基于深度上下文自训练的低资源依存句法分析

本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST)，利用序列标注的表示模型来解决大量标注数据的问题，并通过控制机制将这些模型集成到基础解析器中，并在多语言实验中取得了优异的成绩。

Nov, 2019