训练 LLMs 以提升自我调试和解释代码能力

May, 2024

训练 LLMs 以提升自我调试和解释代码能力

Training LLMs to Better Self-Debug and Explain Code

Nan Jiang, Xiaopeng Li, Shiqi Wang, Qiang Zhou, Soneya Binta Hossain...

TL;DR自调试是代码生成领域的关键，并且该研究旨在提出一个训练框架，显著提高了语言模型的自调试能力，通过生成一系列解释和改进轨迹，进行自动化数据收集和筛选，进行监督微调和强化学习，并通过对代码解释和改进质量的考虑，实现对四个基准测试的性能提升。研究还表明，通过该框架训练的语言模型能够持续改进代码，并生成更有用的代码解释，帮助开发人员更好地理解源代码中的错误。

Abstract

In the domain of code generation, self-debugging is crucial. It allows llms to refine their generated code based on execution feedback. Th

code generation self-debugging llms training framework refinement

发现论文，激发创造

教授大型语言模型自我调试技能

本论文结合自我调试技术和大型语言模型，提出了一种代码生成方法，不依靠反馈信息和测试用例，实现了语言模型的自我纠错和错误说明能力，从而在文本到 SQL 生成、C++ 到 Python 转换等方面，取得了更优秀的性能表现。

Apr, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

自我改进：带自反馈的迭代改进

通过引入 SELF-REFINE 框架，可以通过迭代反馈和改进从 LLMs 获得更好的输出，同时不需要监督训练数据或强化学习，且在 7 种任务中展现出优越性能。

Mar, 2023

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

自我编辑：面向代码生成的故障感知代码编辑器

利用执行结果修正生成的代码，我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型（LLM）在竞争性编程任务方面的代码质量，对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估，相比于直接从 LLMs 生成的代码，我们的方法在 APP-dev 上的 pass@1 平均值提高了 89％，在 APPS-test 上提高了 31％，在 HumanEval 上提高了 48％，比其他后处理方法表现更优。

May, 2023

比较由学生和大型语言模型创建的代码解释

通过对大型语言模型进行评估，并将其与学生创建的代码解释进行比较，本文发现自动生成的 LLM 代码解释具有更高的准确性和易理解性，从而提供了一种解决教育中代码解释挑战的新方法。

Apr, 2023

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

使用 LLMs 进行代码修复的探索 - 利用权衡

利用大型语言模型（LLMs）迭代改进和修复源代码已成为一种流行的方法，该方法被称为细化，可生成过于复杂无法一次构建的程序。我们发现细化代码暴露了探索与利用的权衡：通过改进通过测试用例的程序进行利用，或通过改进较少考虑的程序进行探索。我们将其视为一种获取臂的赌博机问题，并用汤普森采样解决。得到的基于 LLM 的程序合成算法具有广泛的适用性：在循环不变量合成、视觉推理谜题和竞赛编程问题中，我们发现我们的新方法可以在更少的语言模型调用下解决更多问题。

May, 2024

LogicLLM: 探索基于自监督逻辑增强训练的大型语言模型

本篇论文主要介绍了如何通过自监督后训练和上下文学习来增加逻辑知识，从而提高语言模型的逻辑推理能力，取得了比现有基线更好的效果。

May, 2023

探索大型语言模型用于代码解释

使用各种大型语言模型自动生成代码片段的自然语言摘要，研究结果表明，代码语言模型优于其通用模型，而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。

Oct, 2023