基于模态相对预训练的文本到代码生成

ACLFeb, 2024

基于模态相对预训练的文本到代码生成

Text-to-Code Generation with Modality-relative Pre-training

Fenia Christopoulou, Guchun Zhang, Gerasimos Lampouras

TL;DR通过改变序列令牌的表示方式，依据所属的模态性进行进一步的模型预训练，并在文本与代码生成任务中观察到一致的改进。

Abstract

Large pre-trained language models have recently been expanded and applied to programming language tasks with great success, often through further pre-training of a strictly-natural language model--where training

pre-trained language models programming language tasks embedding spaces modality-relative training objectives text-to-code generation

发现论文，激发创造

NatGen: 自然化源代码的生成式预训练

本文提出了一种新的预训练目标 —— 源代码的自然化，在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换，来训练生成等效但更加自然的代码，进一步提升了自然代码的统计学习能力，实现了三种软件工程任务的生成，翻译和细化，达到了 CodeT5 的水平。

Jun, 2022

潜在翻译：通过连接生成模型跨越模态

本篇论文提出了一种基于先前训练的深度生成模型，利用潜变量空间进行无监督跨模态域迁移的新方法，并探索了通过学习一个后续接口来提高模块性的可能性。通过定量和定性的实验证明了该方法的有效性，证明了在迁移过程中局部性和语义对齐得到了保留，而且通过这种模块化结构可以大大加快新接口模型的训练速度。

Feb, 2019

探究代码语言模型的学习内容

本研究旨在探究预训练语言模型的能力，在超越表面频率和共现之外理解代码的意义，结果表明该模型能够学习代码的计算语义。

Jun, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

透过适配器模块从自然语言到代码的跨模态转换

本文研究了使用适配器在软件工程中进行知识转移的方法，对 C/C++、Python 和 Java 三种编程语言中的 cloze 测试和代码克隆检测等任务进行了广泛的实验，并将该方法与基准进行了比较，在参数数量、内存使用和推理时间等方面更加高效。

Apr, 2022

通过自我改进获得更好的代码语言模型

该研究提出了一个简单的数据增强框架，利用预训练和微调阶段获得的知识来生成伪数据，以进一步提高 PLMC 的性能，在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。

Apr, 2023

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

代码预训练提升语言模型的实体跟踪能力

最近的研究提供了间接证据，表明在代码上预训练语言模型可以提高模型在自然语言中跟踪语篇实体状态变化的能力。本研究通过比较基模型和在其基础上用额外代码数据进行训练的模型在实体跟踪性能上的差异，系统地测试了这一论点。此外，我们还扩展了分析，考察了数学训练和对齐调优这两种高度结构化的数据类型对模型可用性的影响。我们发现，额外训练大量代码的模型明显优于基模型，而在不同的模型类型中，额外的数学训练和对齐调优并没有一致的好处。

May, 2024