BERTwich: 扩展 BERT 模型用于建模方言化和嘈杂文本

ACLOct, 2023

BERTwich: 扩展 BERT 模型用于建模方言化和嘈杂文本

BERTwich: Extending BERT's Capabilities to Model Dialectal and Noisy Text

Aarohi Srivastava, David Chiang

TL;DR本文介绍了一种新颖的方法，即在 BERT 的编码器堆栈中插入额外的编码器层，用于对嘈杂文本进行遮蔽语言建模，以促进对方言文本的零转移能力，并减少单词与其噪声对应词之间的嵌入空间距离。

Abstract

Real-world nlp applications often deal with nonstandard text (e.g., dialectal, informal, or misspelled text). However, language models like bert<

nlp applications nonstandard text bert fine-tuning masked language modeling

发现论文，激发创造

借助字符级噪声对 BERT 进行微调，实现零 - shot 迁移到方言和密切相关的语言

本文介绍了一种方法，通过在 fine-tuning BERT 模型时引入不同形式的字符级噪音，实现了对不同方言和语言的零 - shot 跨语言迁移。作者在三个句子级分类任务上 fine-tune BERT，并在若干未知的方言和语言上进行了评估。他们发现，在特定条件下，字符级噪音可以成为跨语言转移的极其有效的催化剂。特别是当任务依赖表层提示且源 - 目标跨语言语言对具有相对较高的词汇重叠，并且平均具有较短（即含义较少）的未知令牌时，fine-tuning 过程中引入字符级噪音可以帮助更好地完成任务。

Mar, 2023

Noise-BERT：噪音对齐预训练的统一扰动鲁棒框架用于噪音槽位填充任务

提出了一种噪声对齐预训练的统一扰动鲁棒框架 Noise-BERT，用于解决对话系统中输入干扰对槽填充任务的挑战，通过引入对槽蒙版预测和句子噪声判别两个噪声对齐预训练任务，以提高语言模型对准确槽信息和噪声分布的抓取能力，并通过对比学习损失和敌对训练策略来增强模型的鲁棒性。实验结果表明，该方法在性能上优于现有模型，进一步分析证实了其有效性和泛化能力。

Feb, 2024

DiffusionBERT：利用扩散模型提升生成式掩码语言模型的性能

本文介绍了 DiffusionBERT，一种基于离散扩散模型的新型生成遮蔽语言模型，探讨了通过结合扩散模型和预训练去噪语言模型的能力，进一步提高文本生成质量。实验证明，DiffusionBERT 在文本生成方面的表现明显优于现有的扩散模型和先前的生成遮蔽语言模型。

Nov, 2022

BERT 在标签噪音下的鲁棒性研究：关于文本分类中学习噪音标签的研究

对于使用现代 NLP 模型（如 BERT）进行文本分类任务时，在各种噪声类型下，现有的噪声处理方法并不总能提高性能，并且有可能会降低性能，这表明需要进一步研究标签噪声。

Apr, 2022

重新审视鲁棒神经机器翻译：基于 Transformer 的案例研究

本文介绍了一种名为 TAFT 的数据驱动技术，它利用 fine-tuning 策略加入噪声训练 Transformer 模型，并提出了两种新型技术 CD 和 DCD 以帮助模型更好地处理噪声，最终在英德翻译语料中实现更高的鲁棒性。

Dec, 2020

使用适配器将 BERT 整合到并行序列解码中

本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题，并在神经机器翻译任务上验证了该方法的有效性。

Oct, 2020

DrBERT: BERT 预训练中揭示掩码语言模型解码器的潜力

提出了多个增强的解码器设计，并引入了 DrBERT（经过解码器优化的 BERT）作为一种新方法进行模型训练，通过微调对原始 BERT 模型的解码器进行改进，有效提高了模型性能而不增加推理时间和资源使用。

Jan, 2024

BERT 不是什么：从一套新的心理语言诊断中学到的教训，适用于语言模型

本文介绍了一种从人类语言实验中提取的一系列诊断方法，旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中，发现其可以区分涉及共享类别或角色逆转的好坏完成情况，但对具有挑战性的推理和基于角色的事件预测存在困难，并且特别是对否定性上下文影响的敏感性不足。

Jul, 2019

BERTs 是生成上下文学习者

本文探讨了掩码语言模型的上下文学习能力，挑战了常见观点，即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术，使得 DeBERTa 能够作为一个生成模型进行操作，无需额外训练。我们的研究结果表明，DeBERTa 能够与甚至超过 GPT-3，后者以引入上下文学习范式而闻名。比较分析表明，掩码和因果语言模型的行为非常不同，它们在不同类别的任务上明显超越对方。这表明存在一个能充分利用两个训练目标优势的混合训练方法的巨大潜力。

Jun, 2024

通过合成噪声训练，提高机器翻译的抗自然噪声鲁棒性

本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性，从而提高对拼写错误等变异的覆盖率。作者表明，通过在训练时使用一些较为简单的合成噪音，可以实现对常见噪音（例如 Wikipedia 编辑日志中的修正）的鲁棒性，同时不会降低在规范文本上的表现。

Feb, 2019