XFORMAL: 多语种形式化风格转换基准

ACLApr, 2021

XFORMAL: 多语种形式化风格转换基准

XFORMAL: A Benchmark for Multilingual Formality Style Transfer

Eleftheria Briakou, Di Lu, Ke Zhang, Joel Tetreault

TL;DR通过创建和发布多种形式重组非正式文本的基准测试 XFORMAL，我们迈出了通往多语言风格转移的第一步。XFORMAL 的结果表明，最先进的风格转移方法与简单的基线方法表现相当，这表明在进行多语言风格转移时更具挑战性。

Abstract

We take the first step towards multilingual style transfer by creating and releasing xformal, a benchmark of multiple formal reformulations

multilingual style transfer xformal formal reformulations brazilian portuguese french and italian

发现论文，激发创造

评估风格迁移的评价指标：以多语言形式转移为例的案例研究

本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果，包含了葡萄牙语、法语和意大利语，这是这一领域第一个多语言评估的工作，提出了最佳实践，指出了几个与人类评测高度一致的、在多语言下表现良好的模型，期望协助加速风格转移 (ST) 的发展。

Oct, 2021

混合文本注解的正式风格转换

本文通过提出一种全能模型，同时采用平行数据和形式分类数据，以缓解数据稀疏性问题，并在形式转换基准数据集上取得最新的最优表现，发现该模型还可轻松适用于其他无监督文本样式转换任务，如无监督情感转换，并在三个广泛认可的基准测试中取得竞争优势。

Mar, 2019

跨语言和内部转换风格的多任务神经模型翻译

本文探讨多任务学习在自然语言生成中的应用，通过多任务学习实现单语言风格转换和基于风格的机器翻译，并展示了在不依赖特定样本的风格注释训练条件下，我们的模型在风格转换和基于风格翻译方面均取得了最先进的性能。

Jun, 2018

GYAFC 数据集：正式语体转换的语料库、基准和度量标准

本研究创造出最大的专门风格转换语料库，针对形式化语言的风格，显示了使用机器翻译技术作为未来工作的强有力基线，并讨论了使用自动指标的挑战。

Mar, 2018

利用预训练的多语言语言模型控制翻译形式

研究了单一的多语种模型在控制目标语言和形式上的输出，在解决从英语翻译成六种具有不同语法正式标记的语言方面的问题上，可以接近专用翻译模型实现的翻译质量和形式控制，但是预训练语言模型和微调样本的性质对结果有很大的影响。

May, 2022

波斯语的正式风格转换

研究探索了波斯语的形式风格转换，旨在将非正式的文本转化为正式的文本，保持原始含义，并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT，基于 Fa-BERT 架构，结合一致性学习和基于梯度的动态权重，增强模型对语法变化的理解，平衡损失部分，并通过新的度量标准对该模型与传统方法进行了评估，结果表明其在多个指标上的卓越性能，包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性，显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展，能够有效处理语言风格转换，从而简化内容的管理，增强数据挖掘结果，促进跨文化交流。

Jun, 2024

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022

利用语言模型鉴别器和互信息最大化的半监督正式风格转换

本文提出了一种使用语言模型鉴别器的半监督式正式语言风格转换模型，通过最大化生成句子为正式语言的可能性进行训练，并提出了最大化样式源和目标之间互信息作为训练目标。实验结果表明，在自动化指标和人类判断方面，我们的模型显著优于之前的最新基线，并将其推广到无监督文本风格转换任务中，在两个情感风格转换基准数据集上均获得了显着进展。

Oct, 2020

生成语言模型在哪些语言中最为正式？分析各语言的正式度分布

通过分析两个流行的多语言生成语言模型（XGLM 和 BLOOM）在五种语言中的正式性分布，研究了提示正式性对预测结果的影响，发现这些模型的预测结果具有多样性并且存在文化偏见。

Feb, 2023

用机器翻译控制目标语言的正式特征

研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时，如何解决形式化信息缺失的问题，通过使用印地语作为示例数据，在形式化受控环境中训练双语模型，并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型，通过比较预测的被标记词与期望输出的实际词的准确度（ACC）来评估正式性准确性。这项研究展示了一种灵活的翻译策略，考虑了目标语言中形式化的细微差别，迎合了多样化的语言交流需求和场景。

Nov, 2023