将全局和局部层次信息植入基于序列的代码表示模型
本文提出了一种层次对比学习框架 HiCL,它考虑了局部分段级和全局序列级关系以提高训练效率和效果。通过将序列分为几个分段,并应用局部和全局对比学习来建模分段级和序列级关系,HiCL 提高了其效果。此外,考虑到输入标记上的 transformers 的二次时间复杂度,在获得序列表示之前,HiCL 通过首先对短分段进行编码,然后将它们聚合起来来提高训练效率。大量实验证明,HiCL 提升了之前表现最好的 SNCSE 模型在七种广泛评估的 STS 任务上的性能,BERT-large 平均提升了 + 0.2%,RoBERTa-large 提升了 + 0.44%。
Oct, 2023
本研究设计并研究了一种新的分层注意力 Transformer 架构(HAT),在几个序列到序列任务中优于标准 Transformer,包括在 PubMed、arXiv、CNN/DM、SAMSum 和 AMI 上的四个摘要任务中取得了最新的 ROUGE 分数。该架构在 WMT20 英文到德文翻译任务中优于文档级机器翻译基线,并通过可视化分层编解码器注意力来研究了分层层次的理解,最后研究了编码器预训练上的分层学习并分析了其在分类任务上的性能。
Apr, 2021
本文提出了一个名为 SG-Trans 的新颖方法,通过将本地符号信息和全局句法结构注入到 Transformer 的自注意模块作为归纳偏置,并设计能够分布在 Transformer 的较低层和高层的注意头中,进一步捕捉代码的层次特征,将其有效地集成到 Transformer 来实现深度学习自动生成代码摘要,经过广泛评估,SG-Trans 相对于最佳基准测试结果在两个基准数据集上分别提高了 1.4%和 2.0%的 METEOR 得分,这是一种广泛用于测量生成质量的指标。
Apr, 2021
通过提出的 HiStruct+ 模型,将 Transformer-based language models 中的层级结构信息显式注入到提取式文摘模型中,提高了 PubMed 和 arXiv 数据集中提取式文摘的 ROUGEs 指标,实验发现:数据集对模型效果的影响是关键因素,数据集中的明显层级结构可以取得更大的性能提升,而在模型的表现中,层级位置信息的贡献最大。
Mar, 2022
利用超几何空间重新训练语言模型中的分层转换器编码器(Hierarchy Transformer encoders,HiTs),为回归语言模型中隐含的分层结构提供了一种新的方法,通过聚类与层级组织相关实体来提高在推论、预测和跨层次知识传递等任务中的性能和可转移性。
Jan, 2024
本文提出了一种新的基于分层全局视图引导的序列表示学习框架,其中将全局图嵌入模块与和谐 $eta$-attention 模块相结合,旨在进行有效的风险预测,实现了与其他基线方法相比具有竞争力的预测性能。
Nov, 2022
本文针对现有技术在软件工程任务中依然存在两个问题:长期依赖和不同的代码组件被平等地处理。为了解决这些问题,本文提出了一种代表代码的层次结构(“Code Hierarchy”)和一种网络架构(“ECHELON”),该架构将异构图变换网络和基于树的卷积神经网络的优点相结合用于学习富含代码依赖信息的抽象语法树。同时,本文提出了一种新的预训练目标 “Missing Subtree Prediction” 来补充 “Code Hierarchy”。评估结果表明,我们的方法在任何代码完成、代码分类和代码克隆检测方面明显优于其他基线。
May, 2022
本文提出了 HIT 作为一种针对码 - 混合文本的健壮的表示学习方法,该方法用层次化 transformer 框架来抓取词语间的语义关系,并使用融合注意机制来层次性地学习句子级别的语义。实验结果表明,HIT 在 11 个数据集上的 4 个 NLP 任务中显著提高了性能,并且在迁移学习环境中显示了学到的表示的适应性。
May, 2021
本文提出了一种层次注意机制的神经翻译模型,采用双向树形编码器来增强源端层次表示,用加权变异的注意机制平衡词汇和短语向量之间的信息,通过树形稀有词编码将该模型扩展至亚字级别以缓解词汇缺失的问题,实证结果表明,该模型在英汉翻译任务中显著优于序列到序列的注意力机制和基于树的神经翻译模型。
Jul, 2017
采用分层变压器的架构(HIT)学习混合代码语言的语义和语法结构,在 17 个数据集和 9 个自然语言处理任务中,HIT 模型都表现出超越最先进的代码混合表示学习和多语言模型的性能。
Apr, 2022