半监督文本分类的渐进式类别语义匹配
本文提出了一种名为对比半监督学习(Contrastive Semi-supervised Learning, CSL)的方法,通过挑选正负样本来替代直接预测教师生成的伪标签,并将其应用于翻译公共社交媒体视频的挑战任务中,从而比标准的交叉熵伪标签(CE-PL)减少了 8% 的 WER。
Mar, 2021
本文结合半监督深度生成模型与多语预训练技术,设计了一套用于文档分类的流程,在多个语种的低资源场景中表现出极强的竞争力,胜过现有最先进的方法。
Jan, 2021
本文研究了大规模语言模型预训练下半监督学习在文本分类任务中的应用及其效果,发现使用 U 集合(无监督数据)配合 D 集合(有监督数据)应用半监督学习策略可以在小样本数据集情况下达到高精度分类。
Nov, 2020
本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明,半监督学习方法可以增强输出质量和多样性,即使已经使用了预训练语言模型。
Jul, 2022
本文介绍一种半监督的方法来解决低资源语言机器翻译的问题,通过增强高质量的句子对和使用基于 SentenceBERT 的过滤器来提高数据质量,将交叉熵损失和 KL 散度相结合,特别是通过伪目标句子实现无监督训练,实验证明该方法可以显著提高 NMT 基线性能
Apr, 2023
该研究论文提出了一种半监督的语义角色标注方法,该方法基于神经网络的隐层状态生成词汇特征,明确地加入并控制句法特征的不一致性,以实现更好地语义角色标注,尤其是在数据稀缺的情况下,并在 CoNLL-2012 英文部分中取得了相对于基准模型更好的结果。
Aug, 2018
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017
通过利用大型语言模型的生成和评估能力,我们提出了 SemCSR,一种语义感知的对比句子表示框架,可以自动构建高质量的 NLI 风格语料库,并将生成的句子对纳入对比句子表示模型的学习,实验证明了我们提出的框架在使用大型语言模型学习更好的句子表示方面的有效性。
Oct, 2023