教机器编程:用 LLMs 进行智能合约翻译
LLMs 和基于学习的转译器在自动代码转换任务中取得了显著的性能提升,但当前仍存在一些准确性问题和资源限制。本研究发现,大部分失败源于对源程序的理解不足、在转换中缺少清晰的 I/O 类型指令以及源程序与目标程序之间的差异被忽略。鉴于以上研究结果,我们提出了 UniTrans,一个适用于多种 LLMs 的统一代码转换框架,通过生成测试用例、自动增强转换并验证正确性的执行过程,进一步修复转换错误。在 Python、Java 和 C++ 之间的六个转换数据集上进行了大量实验,三个最近的 LLMs 通过 UniTrans 实现了大幅度的改进。
Apr, 2024
通过系统评估大型语言模型在智能合约代码生成方面的质量,研究发现生成的智能合约存在安全漏洞以及代码质量和正确性受到影响,但也提出了改进过程、质量和安全性的多个潜在研究方向。
Aug, 2023
大型语言模型在同时机器翻译任务中表现出与某些最先进基准系统相当或更好的性能,并且注入最少的背景信息(容易实现)可以进一步提高性能,尤其是在具有挑战性的技术主题上。这凸显了大型语言模型构建下一代大规模多语言、上下文感知和术语准确的同时翻译系统的潜力,而无需资源密集型的训练或微调。
Jun, 2024
本文提出了一个名为 MAPS 框架,通过多方面提示和选择的方式,使用大型语言模型分析源文本获取三个与翻译相关的知识方面:关键词、主题和相关演示,并通过质量估计的机制过滤噪音和无用的知识来指导翻译过程,实验证明 MAPS 在最新的 WMT22 测试集上对八个翻译方向都有显著和一致的改进,为解决翻译中的幻觉错误提供了关键的知识。
May, 2023
使用大语言模型(LLMs),将代码更改从一种编程语言翻译成另一种编程语言,通过设计和实现名为 Codeditor 的第一个 LLM,我们发现它在所有常用的自动指标上都大幅超越了现有的方法,并且与现有的生成模型配合使用可以获得更好的性能。
Jul, 2023
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
利用大型语言模型的丰富语言知识和强大的推理能力,我们提出了一种新的生成式翻译范式 ——“GenTranslate”,可以从 N 个候选译文中生成更高质量的翻译结果,并且在各种语音和机器翻译基准测试中明显优于现有模型。
Feb, 2024
通过提出一种新的微调方法,我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA,该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升,并为机器翻译领域的新的训练范式奠定了基础。
Sep, 2023
利用大型语言模型 (LLMs) 将自然语言描述转换为形式化规范的能力进行了评估,提出了一种使用两个 LLMs 与现成验证程序结合的方法来自动评估其翻译能力,结果显示目前最先进的 LLMs 无法充分解决这个任务,限制了它们在复杂系统设计中的实用性。
Mar, 2024
这项研究评估了两个最先进的大型语言模型(LLMs)与传统神经机器翻译(NMT)系统在法律领域的四种语言对中的机器翻译(MT)质量,结合自动评估度量标准(AEMs)和专业翻译员的人工评估(HE)来评估翻译的排序、流畅性和足够性。结果表明,虽然谷歌翻译在 AEMs 中的表现通常优于 LLMs,但人工评估员认为 LLMs,特别是 GPT-4,在产生上下文足够且流畅的翻译方面略优或相当。这种差异表明 LLMs 在处理专业法律术语和背景方面具有潜力,并突出了人工评估方法在评估 MT 质量方面的重要性。本研究强调了 LLMs 在专业领域的不断进化能力,并呼吁对传统的 AEMs 进行重新评估,以更好地捕捉 LLM 生成的翻译的细微差别。
Feb, 2024