关于双向性在语言模型预训练中的作用

EMNLPMay, 2022

关于双向性在语言模型预训练中的作用

On the Role of Bidirectionality in Language Model Pre-Training

Mikel Artetxe, Jingfei Du, Naman Goyal, Luke Zettlemoyer, Ves Stoyanov

TL;DR本文探讨了语言模型预训练的双向性作为不同方法的关键因素，并提出了一个新的框架，能够控制双向上下文和双向注意力等两种表现形式。研究表明，最佳配置因应用而异，但大规模双向模型的作用值得探究。

Abstract

Prior work on language model pre-training has explored different architectures and learning objectives, but differences in data, hyperparameters and evaluation make a principled comparison difficult. In this work, we focus on →

language model pre-training bidirectionality next token prediction text infilling fine-tuning

发现论文，激发创造

双向语言模型也是小样本学习器

本研究提出了一种名为 SAP 的技术，旨在使双向语言模型具有提示功能。利用机器翻译任务作为案例研究，我们使用 SAP 提示双向 mT5 模型，并证明其少量示例和零量示例的翻译性能优于 unidirectional 模型，同时展示了 SAP 在问答和摘要生成中的有效性，证明提示学习是更广泛的语言模型类别的新兴属性而不仅仅是单向模型的特征。

Sep, 2022

双向训练优化神经机器翻译

通过双向的预训练策略，将神经机器翻译模型从'src -> tgt' 朝向'src + tgt -> tgt + src' 方向进行更新，成功地提升了神经机器翻译在 15 项任务上的表现，具有更好的双语对齐。

Sep, 2021

中途相遇：一种新的预训练范式

本文提出了一种新的预训练范例，采用双向推理和训练效率优化技术，以提高语言模型在数据填充任务中的能力并展开大量编程和自然语言实验取得优异成果。

Mar, 2023

改进时间序列表示学习的双向生成预训练

通过时间序列数据的下一个令牌和上一个令牌的预测，BiTimelyGPT 在预训练任务中保留了时间序列的原始分布和数据形状，并展示了更具表现力的表示能力。使用生物信号数据，BiTimelyGPT 在预测神经功能、疾病诊断和生理迹象方面表现出优异性能。通过可视化注意力热图，我们观察到经过预训练的 BiTimelyGPT 能够从时间序列序列中识别出有区别性的片段，尤其是在任务微调之后。

Feb, 2024

利用语言模型生成训练数据：走向零样本语言理解

本文提出了一种简单的方法，使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据，其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法，在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8，以及在 SST-2 上的 92.8)，相对于零样本提示方法，甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时，采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。

Feb, 2022

双向关注作为连续单词专家的混合

通过重新参数化，将多层多头的双向注意力视为堆叠的 MoE 和混合的 MoE，从而揭示了双向注意力中使用 MoE 的独特之处，并说明了其在处理异构数据方面的实际有效性。此外，统计视角还揭示了双向注意力的词嵌入中线性类比的限制条件。

Jul, 2023

双向序列生成中关注未来标记

这篇论文提出了一种采用特殊占位符令序列生成过程具有双向性的方法，将生成过程视为一个完全连接图，有效提高了对话任务的性能。

Aug, 2019

基于 “洞穴填充” 的自注意力网络预训练

本研究提出了一种新的预训练双向 Transformer 模型的方法，通过解决一种词重建任务来提高语言理解问题的性能，实验表明，在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高，模型的各种因素对于有效的预训练起到了积极的贡献。

Mar, 2019

大规模双向训练的零样本图像描述

本文介绍了一种名为 BITTERS 的零 - shot 图像描述框架及数据集评估方法，通过双向图像文本训练以及精细调整提高图像描述精度。

Nov, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018