风格过时：关于 LLMs 和代码风格转移的不如意经历

Jun, 2024

风格过时：关于 LLMs 和代码风格转移的不如意经历

Out of style: Misadventures with LLMs and code style transfer

Karl Munson, Chih-Kai Ting, Serenity Wade, Anish Savla, Julian Dolby...

TL;DR代码风格转换是困难的，但是我们研究发现，尽管语言模型在文本转换方面取得了成功，它们在需要代码理解的任务上表现不佳。我们提供了大规模语料库，以帮助社区构建更好的代码模型。

Abstract

Like text, programs have styles, and certain programming styles are more desirable than others for program readability, maintainability, and performance. code style transfer, however, is difficult to automate except for trivial style guidelines such as limits on line length. Inspired b

code style transfer language models benchmark suite code understanding corpora

发现论文，激发创造

利用神经网络探索代码风格转换

本研究利用 Python 编程语言作为样本，定义了编程代码的风格属性，并探讨了预训练代码语言模型对代码风格的识别能力。我们使用了分层聚类的方法来获取代码风格的定义，通过微调预训练模型，我们还评估了其在代码风格转换中的性能表现。

Sep, 2022

从具有任意未知样式的句子进行语言风格转移

该研究论文介绍了一种利用内容和风格潜在表示进行语言风格转换的方法，并证明了该模型在餐厅评论情感修改、浪漫风格对话回复和莎士比亚风格语句重写等三种任务中具有有效性。

Aug, 2018

风格转换作为无监督机器翻译

本文提出一种使用无监督机器翻译方法来实现自动语言风格转换的方法，利用样式偏好信息和单词嵌入相似性来生成伪平行数据，并采用迭代回译方法来联合训练两个神经机器翻译（NMT）系统，其中引入样式分类器来控制噪声。实验表明，该方法在语言风格转换的精确度和输入输出对应质量方面优于以前的现有模型。

Aug, 2018

大型语言模型是否真正擅长文本风格转换？

我们分析了大型语言模型（LLMs）在文本样式转换（TST）上的性能，特别关注情感转移和文本解毒，在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调，评估了预训练 LLMs 的能力，使用自动度量、GPT-4 和人工评估。我们的评估结果显示，虽然一些受提醒的 LLMs 在英语上表现良好，但它们在其他语言（印地语、孟加拉语）上的表现平均。然而，微调与零样本和少样本提示相比显著改善了结果，使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。

Jun, 2024

大型语言模型中的编码风格一致性研究

通过实证分析编码生成的主要模型（LLMs）和人类开发者的编码风格不一致，总结编码风格的不一致分类法，并对可行性、简洁性和健壮性进行比较，揭示 LLMs 和开发者具有不同的编码风格，并研究这些不一致的可能原因并提供解决方案。

Jun, 2024

学习跨多种编程语言的迁移

大型语言模型（LLMs）在提高高资源编程语言的开发者生产力方面表现出色。然而，许多低资源编程语言由于缺乏标记样本而无法受益于 LLMs，本研究通过使用源语言数据来提高目标语言的模型性能，并针对 4 个任务进行了广泛实验，以探讨交叉语言迁移学习的工作原理和最佳选择源语言的方式。

Oct, 2023

通过潜在属性预训练，将小型语言模型专门化为复杂风格转换

本研究介绍了复杂文本风格转换任务的概念，并基于两个广泛适用的场景构建了复杂文本数据集。我们的数据集是这一类别的首个大规模数据集，包含 700 条改写句子和 1000 条《原神》游戏中的句子。虽然大型语言模型（LLM）在复杂文本风格转换中显示出了潜力，但存在数据隐私问题、网络不稳定性和高部署成本等缺点。为了解决这些问题，我们通过对比学习探索了小型模型（小于 T5-3B）通过隐式风格预训练的有效性。我们还提出了一种基于与人类评估对齐的文本生成质量自动评估方法，使用 ChatGPT。最后，我们将我们的方法与现有方法进行了比较，并展示了我们的模型在少样本文本风格转换模型方面达到了 state-of-art 的性能。

Sep, 2023

使用大型语言模型进行任意文本风格转换的方法

本文采用大型语言模型（LM）来进行零样式转移，提出了一种提示方法，称为增强的零样式学习，将样式转移作为句子重写任务，并仅需要自然语言指令，无需目标样式的模型微调或示例。增强的零样式学习简单易用，不仅在情感等标准样式转换任务上表现出色，而且可以进行任意变换，例如 “使其多愁善感” 或 “插入一个隐喻”。

Sep, 2021

通过反向翻译进行风格转移

本文介绍了一种新的自动风格转移方法，首先我们学习输入句子的潜在表示，然后使用对抗生成技术来匹配所需的风格，通过在情感、性别和政治倾向上的三种不同风格转换的比较，展示了在风格转移和含义保留流畅性方面的自动评估和人工评估的改进。

Apr, 2018

文本风格迁移的问题在哪里？

本文探讨了最近机器学习的几篇主题是关于文本的自动化风格转移的研究，不同的研究者提出了不同的算法、数据集和目标指标来解决这一 NLP 任务，本文致力于讨论这一 NLP 任务的可能形式化，以期进一步增加对它的兴趣。

Aug, 2018