DistiLRR：低资源编程语言的代码修复迁移

Jun, 2024

DistiLRR：低资源编程语言的代码修复迁移

DistiLRR: Transferring Code Repair for Low-Resource Programming Languages

Kyle Wong, Alfonso Amayuelas, Liangming Pan, William Yang Wang

TL;DR使用大型语言模型（LLMs）进行代码修复可以在高资源语言和低资源语言上实现较好的性能表现，但低资源语言中的代码修复效果受到了深知识缺乏的基础模型的限制。我们提出了一种名为 DistiLRR 的方法，通过从教师模型到学生模型的推理和代码生成能力转移，可以在低资源语言中获得比基线模型更好的性能。研究结果显示 DistiLRR 在低资源语言上始终优于基线模型，但在高资源语言上性能相似。我们经过进一步分析，发现了解释质量与代码正确性之间的相关性较弱，这种弱点在低资源环境中被放大，因为基础模型缺乏对编程语言的深入知识，导致代码修复在高资源和低资源语言之间的效果存在差异。

Abstract

large language models (LLMs) have shown remarkable performance on code generation tasks. A recent application of LLMs for code generation is iterative code repair, where a model fixes an incorrect program by rati

large language models code repair low-resource languages distilrr rationale quality

发现论文，激发创造

Letz Translate: 用于卢森堡语的低资源机器翻译

本文介绍了一种使用知识蒸馏技术以及基于高资源语言的资源有效模型实现低资源语言机器翻译的方法。在以卢森堡语为例子的实验中，资源有效模型相比于大型 NLLB 模型速度提高了 30％以上且性能仅下降了 4％。

Mar, 2023

修复几乎是一代人：使用 LLMs 进行多语言程序修复

本研究提出利用 LLMS 模型为基础的多语言自动修复引擎 RING，通过一个基于提示的定位、转化和排序策略，极大地降低了修复程序所需的工程量，相较于传统的修复技术，RING 在多种语言中的表现更为出色。

Aug, 2022

高资源编程语言到低资源编程语言的知识转移：面向代码语言模型的研究

通过使用半合成数据的有效方法，本文提出了一种提高 Code LLMs 在低资源语言上性能的方法，应用于 Racket、OCaml 和 Lua，通过在 Stack 数据集上训练并使用 MultiPL-T 生成的数据，实现了最先进的性能。

Aug, 2023

通过从资源丰富的语言进行自我蒸馏以增强大型语言模型的多语种能力

基于自丰富资源语言的自蒸馏方法 (SDRRL) 能有效提升多语言性能，同时最小化对资源丰富语言原始性能的影响。

Feb, 2024

学习跨多种编程语言的迁移

大型语言模型（LLMs）在提高高资源编程语言的开发者生产力方面表现出色。然而，许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs，本研究通过使用源语言数据来提高目标语言的模型性能，并针对 4 个任务进行了广泛实验，以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。

Oct, 2023

程序翻译通过代码提取

在本文中，我们提出了一种名为 Code Distillation（CoDist）的新模型，通过捕捉代码的语义和结构等价性，在语言不可知的中间表示中翻译代码，并通过构造并应用蒸馏编译器实现针对任何编程语言的并行语料库，从而在 CodeXGLUE 和 TransCoder GeeksForGeeks 翻译基准测试上实现了最新的性能，与 TransCoder-ST 相比，在 TransCoder GeeksforGeeks 翻译基准测试上平均绝对增加了 12.7%。

Oct, 2023

使用大型语言模型进行往返翻译的自动程序修复新方法

通过大型语言模型实现的往返翻译可用于自动程序修复，修正语法错误并还原代码中的常见模式，具有在软件工程研究中的潜力。

Jan, 2024

教育计划修复基准测试

为了促进竞争方法的公平比较和标准化，该研究提出了一个新颖的教育性程序修复基准，对两个高质量的编程数据集进行整理，引入一种新的评估度量指标 rouge@k 来评估修复质量，并评估了五种最近的模型以建立基础性能。

May, 2024

利用大型语言模型增强自动化代码漏洞修复

研究致力于自动修复代码漏洞的复杂挑战，引入了一种新的代码修改表示格式，使用了先进的大型语言模型（如 Code Llama 和 Mistral）。这些模型在 C 代码漏洞数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标（如完美预测）进行了关键评估，并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上，而且推动了这些关键领域的进一步探索与研究。

Jan, 2024

处理低资源语言任务的成本性能优化：使用商业 LLMs

降低大型语言模型在低资源语言的处理成本，同时确保预测和生成性能不受损失，通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量，并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%，并且与原始低资源语言的交互相比性能更好或可比。

Mar, 2024