预训练图循环网络用于语言表示

Sep, 2022

Pre-Training a Graph Recurrent Network for Language Representation

Yile Wang, Linyi Yang, Zhiyang Teng, Ming Zhou, Yue Zhang

TL;DR本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Abstract

Transformer-based pre-trained models have gained much advance in recent years, becoming one of the most important backbones in natural language processing. Recent work shows that the attention mechanism inside Transformer may not be necessary, both convolutional neural networks and multi-layer perceptron based models have also been investigated as Transforme

transformer-based model graph recurrent network language pre-training self-supervised learning efficiency

发现论文，激发创造

图注意力网络实现的对比文档表征学习

本文提出使用图注意力网络在可用的预训练 Transformer 模型之上来学习文档嵌入，并基于该模型设计简单的对比学习策略，在大量无标签语料库上预训练模型。经验证明，我们的方法在文档分类和文档检索任务中是有效的。

Oct, 2021

Transformer 循环建模

研究表明，Transformer 模型虽然仅基于注意力机制，但缺乏循环机制限制了其翻译能力的提高，本文提出使用一个额外的循环编码器来直接建模循环，并引入一种新的注意力循环网络来结合注意力和循环网络的优点，在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现，研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。

Apr, 2019

图形转换器用于图形到序列学习

本文提出了一种名为 “图变压器” 的模型，使用显式关系编码并允许两个远程节点之间的直接通信。与局部邻域信息交换的图神经网络不同，它提供了一种更有效的全局图结构建模方式，并在抽象意义表示文本生成和基于句法的神经机器翻译应用中表现出优异的性能。

Nov, 2019

文本属性图上的纯 Transformer 预训练框架

图序列预训练框架 GSPT 利用统一的文本表示，在图领域中取得了显著的可转移性和实证成功。

Jun, 2024

应用生成预训练自回归转换器图神经网络分析和发现新型蛋白质

利用基于语言模型的灵活深度学习策略，基于一个完全基于提示的模型，将 transformer 和图卷积架构集成到因果多头图机制中，实现一个生成预训练模型，用于预测蛋白质的二级结构内容、蛋白质可溶性和蛋白质测序等任务，并可用于设计具有这些特性的蛋白质，这个模型展现了多任务和协同作用的应用价值。

May, 2023

将预训练的 Transformers 微调为 RNN

本研究旨在将预训练 Transformer 转换为其高效循环对应物，在维持准确性的同时提高效率，并提出一种交换再微调的流程。

Mar, 2021

R-Transformer：加强循环神经网络的 Transformer 模型

本文提出了 R-Transformer 模型，结合了 RNN 和多头注意力机制的优点，同时避免了它们各自的缺点，能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明，在大多数任务中，R-Transformer 优于最先进的方法。

Jul, 2019

建模双语句子处理：评估 RNN 和 Transformer 体系结构用于跨语言结构启动

通过评估循环神经网络（RNN）和 Transformer 在复制跨语言结构启动方面的表现，这项研究对人类语言处理中抽象语法表示的关键指标进行了评估。研究重点关注涉及两种类型不同的语言的中英启动，探讨这些模型如何处理结构启动这一稳定现象，即暴露于特定句子结构会增加之后选择类似结构的可能性。此外，我们还利用大型语言模型（LLM）来衡量跨语言结构启动效果。研究结果表明 Transformer 在生成启动句子结构方面的性能优于 RNN，挑战了人类句子处理主要涉及循环和即时处理的传统观念，同时表明了基于线索的检索机制的作用。总体而言，这项工作对于了解计算模型如何反映多语言环境中人类认知过程具有重要贡献。

May, 2024

具有潜在树状注意力的神经机器翻译

我们介绍了一种利用循环神经网络语法编码器和新颖的注意力递归神经网络解码器的模型，利用策略梯度强化学习来在源语言和目标语言上诱导无监督树结构，从而训练出在字符级数据集中相当不错的分割和浅层解析表现，接近注意力基准。

Sep, 2017

人类句子加工：循环或注意力？

通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力，本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN，并挑战了人类句子处理涉及循环和即时处理的普遍理念，并提供了线索检索的证据

May, 2020