无监督不可迁移文本分类
本篇综述针对最近的研究进展,对不需要标记目标领域数据的神经无监督领域自适应技术进行了概述,包括从传统非神经方法到预训练模型迁移的方法,并揭示了自然语言处理任务类型中存在的偏见问题以及未来的研究方向,特别是面向 NLP 的超分布通用化需求。
May, 2020
本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。
Sep, 2018
通过将图像表示分为两个子空间:一个是每个领域的私有特征,一个是跨领域共享的特征,我们开发的一种新型架构不仅可以让模型在源领域中执行任务,还可以用于重构来自两个领域的图像。该架构不仅在一系列无监督领域适应场景中优于现有技术水平,还能输出私有和共享表示的可视化结果,从而能够解释领域适应过程。
Aug, 2016
本文提出了一种深度生成模型,用于无监督的文本风格转换,并且统一了先前提出的非生成技术。利用概率方法将两个领域的非平行数据建模为部分观察到的平行语料库,通过假设生成每个观察序列的平行潜在序列,该模型学会了完全无监督的将序列从一个领域转换到另一个领域。
Feb, 2020
我们研究和设计了一个有效的非线性转换框架,并进行了广泛实验以证明深度神经网络可以有效地学习以往被认为是无法学习的数据 / 示例,从而提高了打破无法学习数据的能力,显示出比线性可分技术更好的性能,进一步指出现有的数据保护方法在防止未经授权的机器学习模型使用数据方面是不充分的,迫切需要开发更强大的保护机制。
Jun, 2024
本文提出了一种新的领域适应的表示学习方法,使用神经网络架构从源域的有标签数据和目标域的无标签数据中推断出训练的特征,该方法增加了标准层和一个新的反向梯度层,可以在文本情感分析、图像分类以及人员重新识别等任务中有效实现领域适应。
May, 2015
本研究提出了一种针对领域自适应问题的新型表示学习算法,其中训练和测试数据来自类似但不同的分布,实验结果表明,我们的神经网络算法对领域适应具有更好的性能表现,而不管是标准神经网络还是支持向量机,即使是使用 Chen 等人提出的最先进的边缘化堆栈去噪自编码器的输入特征提取。
Dec, 2014
提出了一种名为非可转让学习(NTL)的方法来保护良好训练的人工智能模型的知识产权,NTL 可用于所有权验证和使用授权,既能抵御最新的水印去除方法,又能够限制模型的推广能力,最终实现通过数据本身的授权,达到了对数据的保护。
Jun, 2021