利用自训练自注意力模型提高失流畅侦测
本文提出了一种无监督学习的方法用于发现语言中的断续性,该方法使用廉价的无标注文本语料库,并借鉴了 Noisy Student Training 和上下文化词嵌入的思路,在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。
Oct, 2020
本文针对训练数据短缺的问题,提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练,并利用有标注的训练数据进行微调的方法,达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时,我们的方法可将误差降低 21%。
Aug, 2019
通过对各种语言和预训练条件进行的实验比较表明,联合无监督预训练和微调是一种有效的方法,可以在各种语言上提高句法分析的性能并实现新的最先进的结果。
Dec, 2018
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务,包括抽象概括,并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型,并在最近引入的 SAMSum 语料库中经验性地评估,证明我们的方法在抽象概括中做出了改进。
Sep, 2022
通过将 LSTM 编码器替换为自注意力机制,能够提高最先进的判别型成分解析器的性能,特别是当用预训练的字词表示时,而且这种方法在 SPMRL 数据集的大部分语言上的性能优于以前的最佳结果。
May, 2018
通过使用语言模型的嵌入(ELMo)技术,提出了一种更快、更简单的无监督预训练方法 ELMo-Light(ELMoL),在大量未标记的句子上进行的无监督预训练,在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好,并且当域内的标记样本仅有 1000 个时,我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。
Nov, 2018
本文讲述了如何通过自动生成语义不同但结果相似的句子组集来学习一种转换,以去除词法语义但保留结构信息,并证明这种方法在结构聚类方面的效果优于词汇语义聚类方法,最终在少样本解析任务中优于原始上下文化语言表示。
Oct, 2020
本文提出了一种自我训练算法 Deep Contextualized Self-training (DCST),利用序列标注的表示模型来解决大量标注数据的问题,并通过控制机制将这些模型集成到基础解析器中,并在多语言实验中取得了优异的成绩。
Nov, 2019