LMStyle 基准测试：评估聊天机器人的文本风格转移

Mar, 2024

LMStyle 基准测试：评估聊天机器人的文本风格转移

LMStyle Benchmark: Evaluating Text Style Transfer for Chatbots

Jianlin Chen

TL;DR本研究提出了 LMStyle Benchmark，这是一个适用于聊天风格文本风格转换的评估框架，可以自动化和可扩展地评估大型语言模型的风格转换质量，并引入了适应度等新颖的度量方法，从而更好地反映人类判断。

Abstract

Since the breakthrough of ChatGPT, large language models (LLMs) have garnered significant attention in the research community. With the development of LLMs, the question of text style transfer for conversational

large language models text style transfer lmstyle benchmark evaluation metrics chat-style text style transfer

发现论文，激发创造

利用大型语言模型进行文本风格转换评估

我们评估了不同的大型语言模型在文本风格转换评估中的性能并提出了输入提示的集成来增加评估的鲁棒性。

Aug, 2023

使用 ChatGPT 进行文本风格转移的多维度评估

本文旨在通过评估 ChatGPT 在文本风格转换多维度评估中的作用，与现有的自动度量以及人类判断的对比。结果表明，在不同等级下，与现有的自动度量相比，ChatGPT 与人类判断具有相似的相关性。

Apr, 2023

大型语言模型是否真正擅长文本风格转换？

我们分析了大型语言模型（LLMs）在文本样式转换（TST）上的性能，特别关注情感转移和文本解毒，在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调，评估了预训练 LLMs 的能力，使用自动度量、GPT-4 和人工评估。我们的评估结果显示，虽然一些受提醒的 LLMs 在英语上表现良好，但它们在其他语言（印地语、孟加拉语）上的表现平均。然而，微调与零样本和少样本提示相比显著改善了结果，使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。

Jun, 2024

TSST：文本语音风格转换的基准和评估模型

本文介绍了 TSST 任务，它是一个新的样式转移 benchmark，强调人类导向的评估，探索和提升当前 LLMs 的性能。

Nov, 2023

文本风格转移的评估

本文提出了一种在 Yelp 情感数据集上实验性确定最佳实践的方法，解决了文本风格转移领域目前缺乏标准评估实践的问题；我们提出了自动化评估的一组度量标准，并展示了它们与人类判断的强关联性和一致性，并证明了三种检验模型在所关注的方面存在权衡，在特定的权衡图上评估风格转移模型的重要性。

Apr, 2019

文本风格转换：探索与评估

本文提出使用对抗网络以学习分离内容表示和风格表示的方法来解决自然语言处理中的样式转移问题，并提出了新的评估指标来测量样式转移的转移强度和内容保留。作者在文章 - 新闻标题转移和正面 - 负面评论转移两个任务上评估了模型和指标，结果表明，所提出的模型的样式转移强度和内容保留得分比自动编码器更高，内容保留度指标与人类判断高度相关。

Nov, 2017

文本风格转移：评论与实验评估

本文综合评述了最近文本风格迁移的研究进展，提出了一种按类别组织 TST 模型的分类法，并提供了一份最新技术的综合摘要。我们还检验了 19 种最先进的 TST 算法并提供当前趋势的新视角。

Oct, 2020

风格过时：关于 LLMs 和代码风格转移的不如意经历

代码风格转换是困难的，但是我们研究发现，尽管语言模型在文本转换方面取得了成功，它们在需要代码理解的任务上表现不佳。我们提供了大规模语料库，以帮助社区构建更好的代码模型。

Jun, 2024

文本风格转移：重新训练、汇报错误、与重写比较

本文针对样式转移的标准评估方法提出了几个问题，为了解决这些问题，我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试，并提出了三种优于现有技术的新体系结构。

Aug, 2019

通过潜在属性预训练，将小型语言模型专门化为复杂风格转换

本研究介绍了复杂文本风格转换任务的概念，并基于两个广泛适用的场景构建了复杂文本数据集。我们的数据集是这一类别的首个大规模数据集，包含 700 条改写句子和 1000 条《原神》游戏中的句子。虽然大型语言模型（LLM）在复杂文本风格转换中显示出了潜力，但存在数据隐私问题、网络不稳定性和高部署成本等缺点。为了解决这些问题，我们通过对比学习探索了小型模型（小于 T5-3B）通过隐式风格预训练的有效性。我们还提出了一种基于与人类评估对齐的文本生成质量自动评估方法，使用 ChatGPT。最后，我们将我们的方法与现有方法进行了比较，并展示了我们的模型在少样本文本风格转换模型方面达到了 state-of-art 的性能。

Sep, 2023