大型语言模型是否真正擅长文本风格转换？

Jun, 2024

大型语言模型是否真正擅长文本风格转换？

Are Large Language Models Actually Good at Text Style Transfer?

Sourabrata Mukherjee, Atul Kr. Ojha, Ondřej Dušek

TL;DR我们分析了大型语言模型（LLMs）在文本样式转换（TST）上的性能，特别关注情感转移和文本解毒，在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调，评估了预训练 LLMs 的能力，使用自动度量、GPT-4 和人工评估。我们的评估结果显示，虽然一些受提醒的 LLMs 在英语上表现良好，但它们在其他语言（印地语、孟加拉语）上的表现平均。然而，微调与零样本和少样本提示相比显著改善了结果，使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。

Abstract

We analyze the performance of large language models (LLMs) on Text Style Transfer (TST), specifically focusing on sentiment transfer and text detoxification across three languages: English, Hindi, and Bengali. Te

large language models text style transfer sentiment transfer text detoxification pre-trained llms

发现论文，激发创造

利用大型语言模型进行文本风格转换评估

我们评估了不同的大型语言模型在文本风格转换评估中的性能并提出了输入提示的集成来增加评估的鲁棒性。

Aug, 2023

多语种文本风格转换：印度语言的数据集与模型

本文旨在通过保留核心内容的同时改变文本的语言风格，重点研究了情感转换这一重要的文本风格转换子任务，涵盖印度语言的广泛范围，包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语；本文介绍了每种语言的正负样式平行句的专门数据集，评估并比较了各种基准模型在平行数据、非平行数据、跨语言学习和共享学习方法中的性能，其中包括 Llama2 和 GPT-3.5 成语语言模型（LLMs）；我们的实验突出了平行数据在文本风格转换中的重要性，并展示了掩码风格填充（MSF）方法在非平行技术中的有效性；此外，跨语言和联合多语种学习方法表现出了潜力，为选择适合特定语言和任务要求的最优模型提供了见解；据我们所知，这项工作是首次全面探索以情感转换为代表的文本风格转换任务涉及到多种语言的研究。

May, 2024

通过潜在属性预训练，将小型语言模型专门化为复杂风格转换

本研究介绍了复杂文本风格转换任务的概念，并基于两个广泛适用的场景构建了复杂文本数据集。我们的数据集是这一类别的首个大规模数据集，包含 700 条改写句子和 1000 条《原神》游戏中的句子。虽然大型语言模型（LLM）在复杂文本风格转换中显示出了潜力，但存在数据隐私问题、网络不稳定性和高部署成本等缺点。为了解决这些问题，我们通过对比学习探索了小型模型（小于 T5-3B）通过隐式风格预训练的有效性。我们还提出了一种基于与人类评估对齐的文本生成质量自动评估方法，使用 ChatGPT。最后，我们将我们的方法与现有方法进行了比较，并展示了我们的模型在少样本文本风格转换模型方面达到了 state-of-art 的性能。

Sep, 2023

英语和印地语中的文本去毒化作为风格转换

本文研究了文本排毒的任务，即将有害文本自动转化为非有害文本。通过知识迁移、多任务学习和删减重构等方法，我们有效地平衡了文本排毒，同时保留了原始内容和流畅性，并使用提供的数据集进行实验和评估。

Feb, 2024

CAT-LLM：使用文本风格定义促使大规模语言模型进行中文文章风格转换

提出了一个中文文章风格转换框架（CAT-LLM），利用大型语言模型（LLMs）的能力，通过自定义的文本风格定义模块（TSD）来全面分析文章特征，高效地进行中文文章风格转换。该框架在许多方面优于当前研究，能够实现准确的转换和内容保持，对各种类型的 LLMs 具有显著的适用性。

Jan, 2024

LLM 对零样本和少样本提示的比较研究：孟加拉情感分析的微调模型

本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集，并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习，与精细调优模型进行了比较分析。研究结果表明，在零指导和少量指导的场景下，单语言变换器模型始终优于其他模型。为了促进进一步的研究探索，我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。

Aug, 2023

使用大型语言模型进行任意文本风格转换的方法

本文采用大型语言模型（LM）来进行零样式转移，提出了一种提示方法，称为增强的零样式学习，将样式转移作为句子重写任务，并仅需要自然语言指令，无需目标样式的模型微调或示例。增强的零样式学习简单易用，不仅在情感等标准样式转换任务上表现出色，而且可以进行任意变换，例如 “使其多愁善感” 或 “插入一个隐喻”。

Sep, 2021

LMStyle 基准测试：评估聊天机器人的文本风格转移

本研究提出了 LMStyle Benchmark，这是一个适用于聊天风格文本风格转换的评估框架，可以自动化和可扩展地评估大型语言模型的风格转换质量，并引入了适应度等新颖的度量方法，从而更好地反映人类判断。

Mar, 2024

用 LLMs 进行的自述文本风格转换提炼

基于大语言模型和 CoT 提示的 CoTex 框架，在有限的平行数据集约束下，能够优于传统监督微调和知识蒸馏方法的无监督文本风格转换，特别是在资源有限的情况下，同时具有风格转换过程的透明解释。

Mar, 2024

大型语言模型中的重新思考：关于 STS 和 NLI

本研究旨在重新思考大型语言模型（LLMs）时代的 STS 和 NLI。我们首先评估五个数据集上的临床 / 生物医学 STS 和 NLI 的准确性，然后评估 LLM 预测置信度及其捕捉人类集体意见的能力。我们发现 LLMs 可能能够为特定主题提供个性化描述，或以不同语调生成语义上相似的内容，但目前的 LLMs 很难做出个性化的判断或决策。我们进一步发现，零样本 ChatGPT 在临床和生物医学 STS/NLI 上的准确性与 Fine-tuned BERT-base 相当，但采样存在较大的变异性，集成结果最好。

Sep, 2023