以人类判断为指南，引导正式转移的自动度量

Apr, 2022

以人类判断为指南，引导正式转移的自动度量

Human Judgement as a Compass to Navigate Automatic Metrics for Formality Transfer

Huiyuan Lai, Jiali Mao, Antonio Toral, Malvina Nissim

TL;DR本文针对文本形式转换的评估问题进行研究，重点关注了风格强度、内容保留和流畅度等三个方面的评估，对常见与新型度量标准进行了人工评估和相关分析，提出了在通用性使用情况下建议及其在相关任务中的外推性。

Abstract

Although text style transfer has witnessed rapid development in recent years, there is as yet no established standard for evaluation, which is performed using several automatic metrics, lacking the possibility of always resorting to human judgement. We focus on the task of

text style transfer evaluation metrics formality transfer content preservation fluency

发现论文，激发创造

评估风格迁移的评价指标：以多语言形式转移为例的案例研究

本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果，包含了葡萄牙语、法语和意大利语，这是这一领域第一个多语言评估的工作，提出了最佳实践，指出了几个与人类评测高度一致的、在多语言下表现良好的模型，期望协助加速风格转移 (ST) 的发展。

Oct, 2021

风格迁移的人工评估综述

本文回顾和总结了 97 篇风格迁移论文中人类评估实践的三个主要方面：风格迁移、含义保留和流畅性，并指出在风格迁移论文中，人类评估协议通常没有明确规定和标准化，这阻碍了该领域的研究可重复性和朝着更好的人类和自动评估方法的发展的进步。

Jun, 2021

文本风格转移的评估

本文提出了一种在 Yelp 情感数据集上实验性确定最佳实践的方法，解决了文本风格转移领域目前缺乏标准评估实践的问题；我们提出了自动化评估的一组度量标准，并展示了它们与人类判断的强关联性和一致性，并证明了三种检验模型在所关注的方面存在权衡，在特定的权衡图上评估风格转移模型的重要性。

Apr, 2019

现实世界文本风格转移自动评估的艰巨任务

本文讨论了文本风格迁移技术中的关键问题，即使用无监督生成方法，自动评估风格迁移任务的难点。通过对类似文献的总结，我们阐述了当前风格迁移研究的问题，并指出现有的自动评估方法存在缺陷，无法准确评估迁移后句子的风格准确性、内容相似度和流畅性。本文旨在引导研究者思考风格迁移和评估研究的未来趋势。

Oct, 2019

GYAFC 数据集：正式语体转换的语料库、基准和度量标准

本研究创造出最大的专门风格转换语料库，针对形式化语言的风格，显示了使用机器翻译技术作为未来工作的强有力基线，并讨论了使用自动指标的挑战。

Mar, 2018

混合文本注解的正式风格转换

本文通过提出一种全能模型，同时采用平行数据和形式分类数据，以缓解数据稀疏性问题，并在形式转换基准数据集上取得最新的最优表现，发现该模型还可轻松适用于其他无监督文本样式转换任务，如无监督情感转换，并在三个广泛认可的基准测试中取得竞争优势。

Mar, 2019

文本风格转移：重新训练、汇报错误、与重写比较

本文针对样式转移的标准评估方法提出了几个问题，为了解决这些问题，我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试，并提出了三种优于现有技术的新体系结构。

Aug, 2019

文本风格转换：探索与评估

本文提出使用对抗网络以学习分离内容表示和风格表示的方法来解决自然语言处理中的样式转移问题，并提出了新的评估指标来测量样式转移的转移强度和内容保留。作者在文章 - 新闻标题转移和正面 - 负面评论转移两个任务上评估了模型和指标，结果表明，所提出的模型的样式转移强度和内容保留得分比自动编码器更高，内容保留度指标与人类判断高度相关。

Nov, 2017

自然语言生成中的自动评估的玻璃天花板

本文对比了现有的自动评估指标和人工评估指标，发现自动评估指标与人工评估指标相比非常相似，并提出了未来评估工作的建议。

Aug, 2022

文本样式转换评估的标准化与验证呼吁

进行元分析发现 TST 评估在人工和自动化评估方面存在实践上的不一致和显著的标准化和验证差距，提出了要求未来研究满足的需求，以弥补这些差距。

Jun, 2023