BERTwich: 扩展 BERT 模型用于建模方言化和嘈杂文本
本文介绍了一种方法,通过在 fine-tuning BERT 模型时引入不同形式的字符级噪音,实现了对不同方言和语言的零 - shot 跨语言迁移。作者在三个句子级分类任务上 fine-tune BERT,并在若干未知的方言和语言上进行了评估。他们发现,在特定条件下,字符级噪音可以成为跨语言转移的极其有效的催化剂。特别是当任务依赖表层提示且源 - 目标跨语言语言对具有相对较高的词汇重叠,并且平均具有较短(即含义较少)的未知令牌时,fine-tuning 过程中引入字符级噪音可以帮助更好地完成任务。
Mar, 2023
提出了一种噪声对齐预训练的统一扰动鲁棒框架 Noise-BERT,用于解决对话系统中输入干扰对槽填充任务的挑战,通过引入对槽蒙版预测和句子噪声判别两个噪声对齐预训练任务,以提高语言模型对准确槽信息和噪声分布的抓取能力,并通过对比学习损失和敌对训练策略来增强模型的鲁棒性。实验结果表明,该方法在性能上优于现有模型,进一步分析证实了其有效性和泛化能力。
Feb, 2024
本文介绍了 DiffusionBERT,一种基于离散扩散模型的新型生成遮蔽语言模型,探讨了通过结合扩散模型和预训练去噪语言模型的能力,进一步提高文本生成质量。实验证明,DiffusionBERT 在文本生成方面的表现明显优于现有的扩散模型和先前的生成遮蔽语言模型。
Nov, 2022
对于使用现代 NLP 模型(如 BERT)进行文本分类任务时,在各种噪声类型下,现有的噪声处理方法并不总能提高性能,并且有可能会降低性能,这表明需要进一步研究标签噪声。
Apr, 2022
本文介绍了一种名为 TAFT 的数据驱动技术,它利用 fine-tuning 策略加入噪声训练 Transformer 模型,并提出了两种新型技术 CD 和 DCD 以帮助模型更好地处理噪声,最终在英德翻译语料中实现更高的鲁棒性。
Dec, 2020
本研究提出了一种通过加入轻量级适配器模块在 BERT 编码器和解码器之间 fine-tuning 来应对语言生成任务的问题,并在神经机器翻译任务上验证了该方法的有效性。
Oct, 2020
提出了多个增强的解码器设计,并引入了 DrBERT(经过解码器优化的 BERT)作为一种新方法进行模型训练,通过微调对原始 BERT 模型的解码器进行改进,有效提高了模型性能而不增加推理时间和资源使用。
Jan, 2024
本文介绍了一种从人类语言实验中提取的一系列诊断方法,旨在检验语言模型用于生成上下文预测的信息。将这些诊断方法应用于 BERT 模型的案例研究中,发现其可以区分涉及共享类别或角色逆转的好坏完成情况,但对具有挑战性的推理和基于角色的事件预测存在困难,并且特别是对否定性上下文影响的敏感性不足。
Jul, 2019
本文探讨了掩码语言模型的上下文学习能力,挑战了常见观点,即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术,使得 DeBERTa 能够作为一个生成模型进行操作,无需额外训练。我们的研究结果表明,DeBERTa 能够与甚至超过 GPT-3,后者以引入上下文学习范式而闻名。比较分析表明,掩码和因果语言模型的行为非常不同,它们在不同类别的任务上明显超越对方。这表明存在一个能充分利用两个训练目标优势的混合训练方法的巨大潜力。
Jun, 2024
本文提出通过引入随机合成的少量噪音来改善机器翻译中源文本字符级别波动的鲁棒性,从而提高对拼写错误等变异的覆盖率。作者表明,通过在训练时使用一些较为简单的合成噪音,可以实现对常见噪音(例如 Wikipedia 编辑日志中的修正)的鲁棒性,同时不会降低在规范文本上的表现。
Feb, 2019