结构感知的代码预训练模型微调
通过预训练和微调编程结构,改进了面向代码任务的当前语言模型的方法,并且在使用有限训练样本时,结合程序结构与纯文本表示方式展现出显著的改进效果。
Jan, 2024
通过自动化的 PET 模块结构搜索方法 S^3PET,我们能够以远远低于用于传统模型的可训练参数的预算对预训练模型进行微调,搜索得到的结构具有高度可迁移性和可解释性且在保留超过 99% 微调性能的同时,只需 0.01% 的可训练参数。
Jun, 2022
本文提出了一种名为 SASA 的结构感知稀疏注意机制用于长代码理解任务。SASA 采用 top-k 稀疏关注机制和基于抽象语法树的结构感知关注机制,能够高效降低计算成本并处理长代码,实现了优于竞争基准模型的表现。
May, 2022
介绍了一种提高语言模型结构理解能力的方法,它通过预训练语言模型生成的结构来替代以往的基于任务数据的微调方式,并且在包含 28 个数据集的 10 个预测任务上实现了零样本迁移和超越了 21 个数据集的最新成果。
May, 2022
本文提出了一种带有两个阶段微调机制的结构化图文模型,结合传统的标记和位置嵌入以及新颖的树级嵌入方法,显著提高了英语 WebNLG 2017 数据集的所有文本生成指标
May, 2021
使用 AST(抽象语法树)的 AST-T5 模型在代码生成、转译和理解任务中表现出色,保留了代码结构,对重建各种代码结构具有强大的能力,并在各种代码相关任务中优于类似尺寸的其他大型语言模型。
Jan, 2024
本研究通过提出一种新的 CAT-probing 探针方法,定量解释 CodePTMs 如何关注代码结构,通过过滤编译器预定义的令牌类型的令牌,定义一个新的度量 CAT-score 来衡量令牌级别注意力得分与相应 AST 节点之间的成对距离之间的公共度量,本文证明了 CAT-probing 的有效性。
Oct, 2022
我们提出了一个基于先验的端到端三阶段监督微调模型,它证明比传统的微调方法更有竞争力。我们的模型通过一个采样器和重叠估计神经网络来稳固三类数据分类,并将预处理数据集分三批注入预训练模型进行 LORA 微调。然后,我们设计了一个先验模块耦合系统提示、向量数据库和抽象语法树任务分割。最后,对基于先验的微调模型应用压缩方法和正则化约束,并在输出端进行文本过滤以获得逐步增量式的引导结果。我们的模型是首个真正具备丰富教育知识、逐步增量引导输出和答案保密等特征的导师角色研究的努力。广泛的实验表明,与开源模型相比,我们的模型在编码能力方面也达到了最先进水平,在 HumanEval (@pass 1) 基准测试中取得了令人印象深刻的 75.10%。此外,我们的模型具有强大的对话能力,13B 量化版本在 MMLU、C-Eval 和 AGIEval (5 shot) 对话评估基准测试中分别达到了 56.34、50.60 和 45.27 的分数。
Mar, 2024