使用随机噪声做遮罩改进词汇表示方法

AAAINov, 2019

使用随机噪声做遮罩改进词汇表示方法

Ruminating Word Representations with Random Noised Masker

Hwiyeol Jo, Byoung-Tak Zhang

TL;DRGROVER 是一种用于词语表示和性能提升的训练方法，通过渐进式地将随机噪声添加到词嵌入中，得到进一步优化和专门化于任务的词表示，并在文本分类数据集上实验得到更好的模型性能。

Abstract

We introduce a training method for both better word representation and performance, which we call grover (Gradual Rumination On the Vector

grover training method word representation random noises model performance

发现论文，激发创造

利用注释规范化的预训练方法改进上下文表示

为了解决 BERT 模型在预训练和推理之间存在的差异，我们从单词概率分布的角度研究预训练和推理的上下文表示，并发现 BERT 在预训练中存在忽略上下文单词相似性的风险。通过引入辅助注释正则化器，我们提出了一个增强单词语义相似性的 GR-BERT 预训练模型，并设计了两种体系结构进行评估和实验，结果表明该模型较之前模型在词汇替换和文本语义任务中达到了新的最优效果。

May, 2022

文本的鲁棒性表示学习

通过基于正则化的方法，限制深度神经网络对其输入的敏感性，从而学习出更加鲁棒的模型，实验表明这种方法在情感分析方面具有优秀的性能，尤其在处理有噪声和跨领域数据时，胜过基线模型和 dropout 方法。

Sep, 2016

学习噪声不变表示以实现稳健语音识别

本文提出了一种建议将干净示例和其表面扰动的对应物不仅映射到相同类别，而且映射到相同表示的不变表示学习（IRL）方法，该方法通过数据扩充有效地减少字符错误率，特别是在不同于训练期间所见的若干场景上。

Jul, 2018

递归神经网络语言模型中的变分平滑

提出一种新的关于循环神经网络语言模型中数据噪声的理论视角，证明了每一种数据噪声变种都是贝叶斯循环神经网络的一个实例，我们利用这个视角来提出一种更加有原则的方法，并在变分框架下提出了自然的数据噪声扩展方法，通过两个基准的语言建模数据集的实验证明了我们分析的有效性，并证明了我们的方法比现有的数据噪声方法更具实际效果。

Jan, 2019

提高噪声学生训练用于自动语音识别

本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法，通过过滤、平衡和增强数据集，成功地提高了网络性能，使 WER 在 LibriSpeech 测试集上分别为 4.2％/8.6％（无噪声 / 有噪声），并在 LibriLight 上达到了 1.7％/3.4％（无噪声 / 有噪声）

May, 2020

基于掩膜图像训练的通用深度图像去噪技术

本文提出了一种蒙版训练的方法，通过遮盖输入图像的随机像素并在训练期间重建丢失的信息，同时遮盖自注意力层中的特征以避免训练 - 测试不一致性的影响，从而提高了去噪网络的泛化能力。

Mar, 2023

通过数据增强、课程学习和多任务增强提高 DistilHuBERT 对未知噪声环境的鲁棒性

本研究提出了一种改进的 DistilHuBERT 模型，该模型引入了噪声和混响以及多任务学习的训练方法，能够有效提高在真实环境下的边缘语音应用中的鲁棒性。

Nov, 2022

信号在噪音中：使用字符感知语言模型探索随机字符序列中的编码含义

本文提出使用 $garble$，即由随机字符序列组成的 $n$-grams，作为语境来研究字词含义，同时探讨了 $garble$ 字向量、终极语言和伪词的嵌入，并通过 CharacterBERT 模型识别嵌入空间中将这些 $n$-grams 进行分离的轴，进而发现含义和原始信息之间的内在联系。

Mar, 2022

噪声语音识别的不变表示

本研究旨在通过使用生成对抗网络和领域自适应思想来鼓励神经网络声学模型学习不变特征表示，以实现自动语音识别系统对声学变异的鲁棒性提高。所提出的方法具有普适性，尤其适用于仅针对少量噪声类别进行训练的情况。

Nov, 2016

Noisin: 循环神经网络的无偏正则化

本文提出了一种名为 Noisin 的新方法，通过注入随机噪声到 RNN 的隐藏状态对其进行正则化，有效避免过拟合，实验证明 Noisin 在语言建模任务上相较于 dropout 有 12.2% 的性能提升。

May, 2018