探索和释放大型语言模型在自动代码翻译中的潜力

Apr, 2024

探索和释放大型语言模型在自动代码翻译中的潜力

Exploring and Unleashing the Power of Large Language Models in Automated Code Translation

Zhen Yang, Fang Liu, Zhongxing Yu, Jacky Wai Keung, Jia Li...

TL;DRLLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升，但当前仍存在一些准确性问题和资源限制。本研究发现，大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果，我们提出了 UniTrans，一个适用于多种 LLMs 的统一代码转换框架，通过生成测试用例、自动增强转换并验证正确性的执行过程，进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验，三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。

Abstract

code translation tools are developed for automatic source-to-source translation. Although learning-based transpilers have shown impressive enhancement against rule-based counterparts, owing to their task-specific

code translation learning-based transpilers llms unitrans automated code translation

发现论文，激发创造

基于大型语言模型的多语言代码协同演化

使用大语言模型（LLMs），将代码更改从一种编程语言翻译成另一种编程语言，通过设计和实现名为 Codeditor 的第一个 LLM，我们发现它在所有常用的自动指标上都大幅超越了现有的方法，并且与现有的生成模型配合使用可以获得更好的性能。

Jul, 2023

学习跨多种编程语言的迁移

大型语言模型（LLMs）在提高高资源编程语言的开发者生产力方面表现出色。然而，许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs，本研究通过使用源语言数据来提高目标语言的模型性能，并针对 4 个任务进行了广泛实验，以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。

Oct, 2023

教机器编程：用 LLMs 进行智能合约翻译

通过将两个不同的大型语言模型融合到一个统一的框架中，我们的研究展示了 SolMover 的先驱性方法，它能够理解编码原则并将此理解应用于将智能合约从 Solidity 转化为资源有限的 Move 语言。通过实证实验，我们的研究结果表明 SolMover 大大提升了性能，并且在缺乏规划能力的第二个语言模型中具备编码专长，使其在代码质量方面取得了优异的成果。同时，我们的分析突出了在 SolMover 框架之外，我们所采用的错误缓解策略在提升代码质量方面的效力。

Mar, 2024

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

探索输出格式对代码翻译的大型语言模型评估的影响

代码翻译的大语言模型综合评估以及通过策略组合和正则表达式提取源代码的研究结果揭示了代码翻译的实际性能和未来研究方向。

Mar, 2024

LLMs 是零射击上下文感知的同时翻译器

大型语言模型在同时机器翻译任务中表现出与某些最先进基准系统相当或更好的性能，并且注入最少的背景信息（容易实现）可以进一步提高性能，尤其是在具有挑战性的技术主题上。这凸显了大型语言模型构建下一代大规模多语言、上下文感知和术语准确的同时翻译系统的潜力，而无需资源密集型的训练或微调。

Jun, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

大型语言模型与自动化机器学习的协同效应

使用大型语言模型 (LLMs) 驱动的代码生成在最近变得越来越流行。然而，自动生成机器学习 (ML) 任务的代码仍然面临着重大挑战。本文通过结合 LLMs 和自动化机器学习 (autoML) 来探索 ML 程序合成的极限，旨在完全自动化从数据准备到建模和后处理的整个 ML 工作流程的代码生成过程，只使用 ML 任务的文本描述。

May, 2024

利用语言模型进行机器翻译的上下文代码切换

通过对比多个 LLM 模型，在机器翻译任务中，我们发现相对较简单的模型性能优于多语言大型语言模型，表明多语言大型语言模型在上下文代码切换方面的有效性受到训练方法的限制。与之相反，当相对较小的模型在定制的数据集上进行训练和微调时，可能会产生更好的结果。

Dec, 2023