本文提出了一种新的预训练目标 —— 源代码的自然化,在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换,来训练生成等效但更加自然的代码,进一步提升了自然代码的统计学习能力,实现了三种软件工程任务的生成,翻译和细化,达到了 CodeT5 的水平。
Jun, 2022
本篇论文提出了一种基于先前训练的深度生成模型,利用潜变量空间进行无监督跨模态域迁移的新方法,并探索了通过学习一个后续接口来提高模块性的可能性。通过定量和定性的实验证明了该方法的有效性,证明了在迁移过程中局部性和语义对齐得到了保留,而且通过这种模块化结构可以大大加快新接口模型的训练速度。
Feb, 2019
本研究旨在探究预训练语言模型的能力,在超越表面频率和共现之外理解代码的意义,结果表明该模型能够学习代码的计算语义。
Jun, 2023
通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集,探索大型预训练模型在多模机器翻译任务中的应用。
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
对于像素级语言模型,本论文介绍了一种新颖的预训练框架,通过在超过 4 亿个文档渲染的 RGB 图像上预训练,采用双模态训练方案,结合视觉数据和文本数据,通过下一个块预测和分类头预测进行训练,并展示了将视觉和文本数据结合的潜力及有效性。
Apr, 2024
本文研究了使用适配器在软件工程中进行知识转移的方法,对 C/C++、Python 和 Java 三种编程语言中的 cloze 测试和代码克隆检测等任务进行了广泛的实验,并将该方法与基准进行了比较,在参数数量、内存使用和推理时间等方面更加高效。
Apr, 2022
该研究提出了一个简单的数据增强框架,利用预训练和微调阶段获得的知识来生成伪数据,以进一步提高 PLMC 的性能,在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。
Apr, 2023
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
最近的研究提供了间接证据,表明在代码上预训练语言模型可以提高模型在自然语言中跟踪语篇实体状态变化的能力。本研究通过比较基模型和在其基础上用额外代码数据进行训练的模型在实体跟踪性能上的差异,系统地测试了这一论点。此外,我们还扩展了分析,考察了数学训练和对齐调优这两种高度结构化的数据类型对模型可用性的影响。我们发现,额外训练大量代码的模型明显优于基模型,而在不同的模型类型中,额外的数学训练和对齐调优并没有一致的好处。
May, 2024