文本样式转换评估的标准化与验证呼吁

ACLJun, 2023

A Call for Standardization and Validation of Text Style Transfer Evaluation

Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz

TL;DR进行元分析发现 TST 评估在人工和自动化评估方面存在实践上的不一致和显著的标准化和验证差距，提出了要求未来研究满足的需求，以弥补这些差距。

Abstract

text style transfer (TST) evaluation is, in practice, inconsistent. Therefore, we conduct a meta-analysis on human and automated tst evaluation

发现论文，激发创造

我们评估了不同的大型语言模型在文本风格转换评估中的性能并提出了输入提示的集成来增加评估的鲁棒性。

Aug, 2023

本文综合评述了最近文本风格迁移的研究进展，提出了一种按类别组织 TST 模型的分类法，并提供了一份最新技术的综合摘要。我们还检验了 19 种最先进的 TST 算法并提供当前趋势的新视角。

Oct, 2020

本文介绍了 TSST 任务，它是一个新的样式转移 benchmark，强调人类导向的评估，探索和提升当前 LLMs 的性能。

Nov, 2023

本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果，包含了葡萄牙语、法语和意大利语，这是这一领域第一个多语言评估的工作，提出了最佳实践，指出了几个与人类评测高度一致的、在多语言下表现良好的模型，期望协助加速风格转移 (ST) 的发展。

Oct, 2021

本文针对文本形式转换的评估问题进行研究，重点关注了风格强度、内容保留和流畅度等三个方面的评估，对常见与新型度量标准进行了人工评估和相关分析，提出了在通用性使用情况下建议及其在相关任务中的外推性。

Apr, 2022

本文讨论了文本风格迁移技术中的关键问题，即使用无监督生成方法，自动评估风格迁移任务的难点。通过对类似文献的总结，我们阐述了当前风格迁移研究的问题，并指出现有的自动评估方法存在缺陷，无法准确评估迁移后句子的风格准确性、内容相似度和流畅性。本文旨在引导研究者思考风格迁移和评估研究的未来趋势。

Oct, 2019

本文提出了一种在 Yelp 情感数据集上实验性确定最佳实践的方法，解决了文本风格转移领域目前缺乏标准评估实践的问题；我们提出了自动化评估的一组度量标准，并展示了它们与人类判断的强关联性和一致性，并证明了三种检验模型在所关注的方面存在权衡，在特定的权衡图上评估风格转移模型的重要性。

Apr, 2019

本文针对样式转移的标准评估方法提出了几个问题，为了解决这些问题，我们建议通过计算原始文本和人类重写文本之间的 BLEU 来进行基准测试，并提出了三种优于现有技术的新体系结构。

Aug, 2019

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022

神经风格迁移的评估方法和指标存在着不一致性和局限性，为了促进方法之间更有意义、更公平的比较，以及对研究结果的理解和解释的提升，我们提供了对现有评估技术的深入分析，并提出了标准化评估实践的建议。

Jan, 2024