本文介绍了一种基于注意力机制的神经机器翻译模型,该模型通过暂时性存储对齐信息和调节注意力值的方法,提高了翻译效果, 在两种语言对上的大规模实验中,该方法不仅超越了基线 NMT 模型,还比其他相关方法表现更出色,甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。
Aug, 2016
本研究探讨了在自然语言处理领域中理解文本的时间背景的方法,并介绍了一种新型语言模型 BiTimeBERT 2.0,该模型通过预训练在一个时间新闻文章集合上,利用三种创新的预训练目标以有效地获得时间感知的语言表示,从而在与时间相关的任务中实现改进的性能。实验结果显示,BiTimeBERT 2.0 在多种依赖时间的下游自然语言处理任务和应用中显著优于 BERT 和其他现有的预训练模型。
Jun, 2024
本文介绍了一种基于时间的上下文语言模型 TempoBERT,通过添加时间信息和进行特定的时间掩码来适应语言的动态性,并在不同的数据集上进行了实验,证明利用时间掩码可以在语义变化检测和句子时间预测任务中得到好的效果。
Oct, 2021
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
本文提出一种基于句法结构的局部语义注意力机制,将其与 BERT 等预训练语言模型相结合,提高对句子中句法相关词的关注度,在单句分类和序列标注等任务中实现了一致性增益。
Dec, 2020
本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用,通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019
该研究探究了在预训练中引入时间信息以提高 NLP 和 IR 任务性能的方法,使用长跨度的新闻文章作为训练语料库,提出了 TimeBERT,并且 TimeBERT 在时间相关任务上表现优异,超过了 BERT 和其他预训练模型。
Apr, 2022
本文研究了将句法知识纳入 Transformer 模型的不同方法,并提出一种新的、无需参数的依赖感知自注意机制,能够提高其翻译质量,特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。
Sep, 2019
本文研究了自注意力在建模形式语言方面的计算能力,发现其在处理分层结构时存在强烈的理论限制,但在自然语言处理方面表现卓越。
该研究提出了一种新的模型,该模型仅由注意力层组成。在具体实现中,加入了持续性存储向量来代替前馈层,这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示,该模型在标准字符和词级语言建模基准上表现出良好的效果。
Jul, 2019