预训练图循环网络用于语言表示
本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入,并基于该模型设计简单的对比学习策略,在大量无标签语料库上预训练模型。经验证明,我们的方法在文档分类和文档检索任务中是有效的。
Oct, 2021
研究表明,Transformer 模型虽然仅基于注意力机制,但缺乏循环机制限制了其翻译能力的提高,本文提出使用一个额外的循环编码器来直接建模循环,并引入一种新的注意力循环网络来结合注意力和循环网络的优点,在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现,研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。
Apr, 2019
本文提出了一种名为 “图变压器” 的模型,使用显式关系编码并允许两个远程节点之间的直接通信。与局部邻域信息交换的图神经网络不同,它提供了一种更有效的全局图结构建模方式,并在抽象意义表示文本生成和基于句法的神经机器翻译应用中表现出优异的性能。
Nov, 2019
利用基于语言模型的灵活深度学习策略,基于一个完全基于提示的模型,将 transformer 和图卷积架构集成到因果多头图机制中,实现一个生成预训练模型,用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务,并可用于设计具有这些特性的蛋白质,这个模型展现了多任务和协同作用的应用价值。
May, 2023
本文提出了 R-Transformer 模型,结合了 RNN 和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer 优于最先进的方法。
Jul, 2019
通过评估循环神经网络(RNN)和 Transformer 在复制跨语言结构启动方面的表现,这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动,探讨这些模型如何处理结构启动这一稳定现象,即暴露于特定句子结构会增加之后选择类似结构的可能性。此外,我们还利用大型语言模型(LLM)来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN,挑战了人类句子处理主要涉及循环和即时处理的传统观念,同时表明了基于线索的检索机制的作用。总体而言,这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。
May, 2024
我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型,利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构,从而训练出在字符级数据集中相当不错的分割和浅层解析表现,接近注意力基准。
Sep, 2017
通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力,本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN,并挑战了人类句子处理涉及循环和即时处理的普遍理念,并提供了线索检索的证据
May, 2020