基因组解释器:一种具有 1D 平移窗口变换器的层次基因组深度神经网络
本研究提出一种基于神经网络的译码器,结合层次短语作为训练的归纳偏差和显式约束,在维持标准序列到序列 (seq2seq) 模型的灵活性的同时。通过训练一个基于括号转录文法的判别式解析器,以层次化地对齐源和目标语短语,并使用一个神经 seq2seq 模型逐个地翻译这些对齐短语。该模型提出两种推理模式:一种只依赖于 seq2seq 模型进行序列级别的翻译,另一种则结合了解析器和 seq2seq 模型。研究结果表明,在小规模机器翻译基准测试中,该方法与对照方法相比表现良好。
Nov, 2022
本文介绍了一种名为 Agglomerator 的框架,它可以通过视觉线索提供部分 - 整体层次结构的表示,并组织与类别之间的概念语义层次结构相匹配的输入分布,从而提高神经网络的可解释性。作者在 SmallNORB、MNIST、FashionMNIST、CIFAR-10 和 CIFAR-100 等常见数据集上进行了评估,并提供了比其他最先进方法更易解释的模型。
Mar, 2022
本文提出了一种名为 “图变压器” 的模型,使用显式关系编码并允许两个远程节点之间的直接通信。与局部邻域信息交换的图神经网络不同,它提供了一种更有效的全局图结构建模方式,并在抽象意义表示文本生成和基于句法的神经机器翻译应用中表现出优异的性能。
Nov, 2019
本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。
Apr, 2021
本研究使用状态转移机器学习估计序列之间的译码方法,通过探索序列到序列学习的等效问题,其考虑到一种基于准同步文法的层次序列到序列方法,在各种应用中达到了合理的性能。
Sep, 2021
本文探讨了在图像块上嵌套局部 Transformer 并以层次化方式汇总它们的想法,并设计了一个简化的架构,它通过解耦特征学习和抽象过程,实现了对学习模型的可视化解释。
May, 2021
通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。
Oct, 2021
介绍了一个具有可分解机制的基于 Transformer 模型的 DNPG 模型,该模型可以学习和生成不同粒度级别的句子的释义。基于该模型,还开发了一种用于自适应释义生成的无监督领域适应方法,实验结果表明,该模型在域内表现竞争激烈,并且在适应到新领域时表现优异。
Jun, 2019
提出了一种名为 GPHT 的新型生成预训练分层变压器架构,通过引入高级网络结构和自监督预训练策略来提高时间序列预测的准确性,并在充足的实验验证中证明其超越了传统预训练模型和监督模型,在传统长期预测任务中取得了良好的效果。
Feb, 2024
本文提出了基于分层 Transformer 和本地并行自回归生成的解决方案,使用一个简单灵活的自监督任务 CogLM 进行预训练,并将其用于快速超分辨率。新的文本到图像系统 CogView2 相对于最先进的 DALL-E-2 具有非常优异的生成能力,并自然支持图像文本引导编辑。
Apr, 2022