关于双向性在语言模型预训练中的作用
本研究提出了一种名为 SAP 的技术,旨在使双向语言模型具有提示功能。利用机器翻译任务作为案例研究,我们使用 SAP 提示双向 mT5 模型,并证明其少量示例和零量示例的翻译性能优于 unidirectional 模型,同时展示了 SAP 在问答和摘要生成中的有效性,证明提示学习是更广泛的语言模型类别的新兴属性而不仅仅是单向模型的特征。
Sep, 2022
通过双向的预训练策略,将神经机器翻译模型从'src -> tgt' 朝向'src + tgt -> tgt + src' 方向进行更新,成功地提升了神经机器翻译在 15 项任务上的表现,具有更好的双语对齐。
Sep, 2021
通过时间序列数据的下一个令牌和上一个令牌的预测,BiTimelyGPT 在预训练任务中保留了时间序列的原始分布和数据形状,并展示了更具表现力的表示能力。使用生物信号数据,BiTimelyGPT 在预测神经功能、疾病诊断和生理迹象方面表现出优异性能。通过可视化注意力热图,我们观察到经过预训练的 BiTimelyGPT 能够从时间序列序列中识别出有区别性的片段,尤其是在任务微调之后。
Feb, 2024
本文提出了一种简单的方法,使用预训练语言模型 (Pretrained language models) 进行全零样本学习 (zero-shot learning) 自然语言理解任务 (NLU tasks)。该方法使用单向和双向 PLMs 生成和训练数据,其中训练数据是使用提示 (prompts) 引导的类别条件文本。使用这种方法,在 GLUE 数据集的七个分类任务中取得了强劲的表现 (例如在 MNLI-m/mm 上的 72.3/73.8,以及在 SST-2 上的 92.8),相对于零样本提示方法,甚至实现了与使用每类 32 个训练样本的强有力的少样本方法相当的结果。同时,采用了标签平滑和时间模型的融合技术以达到更好的泛化和稳定性。
Feb, 2022
通过重新参数化,将多层多头的双向注意力视为堆叠的 MoE 和混合的 MoE,从而揭示了双向注意力中使用 MoE 的独特之处,并说明了其在处理异构数据方面的实际有效性。此外,统计视角还揭示了双向注意力的词嵌入中线性类比的限制条件。
Jul, 2023
本研究提出了一种新的预训练双向 Transformer 模型的方法,通过解决一种词重建任务来提高语言理解问题的性能,实验表明,在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高,模型的各种因素对于有效的预训练起到了积极的贡献。
Mar, 2019
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018