XFORMAL: 多语种形式化风格转换基准
本文评估了风格转移 (ST) 领域自动度量标准对于形式风格转移这一常见任务的效果,包含了葡萄牙语、法语和意大利语,这是这一领域第一个多语言评估的工作,提出了最佳实践,指出了几个与人类评测高度一致的、在多语言下表现良好的模型,期望协助加速风格转移 (ST) 的发展。
Oct, 2021
本文通过提出一种全能模型,同时采用平行数据和形式分类数据,以缓解数据稀疏性问题,并在形式转换基准数据集上取得最新的最优表现,发现该模型还可轻松适用于其他无监督文本样式转换任务,如无监督情感转换,并在三个广泛认可的基准测试中取得竞争优势。
Mar, 2019
本文探讨多任务学习在自然语言生成中的应用,通过多任务学习实现单语言风格转换和基于风格的机器翻译,并展示了在不依赖特定样本的风格注释训练条件下,我们的模型在风格转换和基于风格翻译方面均取得了最先进的性能。
Jun, 2018
本研究创造出最大的专门风格转换语料库,针对形式化语言的风格,显示了使用机器翻译技术作为未来工作的强有力基线,并讨论了使用自动指标的挑战。
Mar, 2018
研究了单一的多语种模型在控制目标语言和形式上的输出,在解决从英语翻译成六种具有不同语法正式标记的语言方面的问题上,可以接近专用翻译模型实现的翻译质量和形式控制,但是预训练语言模型和微调样本的性质对结果有很大的影响。
May, 2022
研究探索了波斯语的形式风格转换,旨在将非正式的文本转化为正式的文本,保持原始含义,并改善了现有自然语言处理工具在数字平台上普遍存在的非正式语言问题。通过引入一种新的模型 Fa-BERT2BERT,基于 Fa-BERT 架构,结合一致性学习和基于梯度的动态权重,增强模型对语法变化的理解,平衡损失部分,并通过新的度量标准对该模型与传统方法进行了评估,结果表明其在多个指标上的卓越性能,包括 BLEU、BERT 分数、Rouge-l 和突出表现了其在波斯语风格转换复杂性方面的能力。该研究通过提高 NLP 模型的准确性和功能性,显著贡献于波斯语的处理并支持更高效可靠的 NLP 应用程序的发展,能够有效处理语言风格转换,从而简化内容的管理,增强数据挖掘结果,促进跨文化交流。
Jun, 2024
本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换,使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外,考虑到平行数据的普遍稀缺性,我们提出了一个模块化方法,包括两种针对语言和任务适应的训练策略,实现竞争性性能,适用于其他风格转换任务以及其他语言。
Mar, 2022
本文提出了一种使用语言模型鉴别器的半监督式正式语言风格转换模型,通过最大化生成句子为正式语言的可能性进行训练,并提出了最大化样式源和目标之间互信息作为训练目标。实验结果表明,在自动化指标和人类判断方面,我们的模型显著优于之前的最新基线,并将其推广到无监督文本风格转换任务中,在两个情感风格转换基准数据集上均获得了显着进展。
Oct, 2020
通过分析两个流行的多语言生成语言模型(XGLM 和 BLOOM)在五种语言中的正式性分布,研究了提示正式性对预测结果的影响,发现这些模型的预测结果具有多样性并且存在文化偏见。
Feb, 2023
研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时,如何解决形式化信息缺失的问题,通过使用印地语作为示例数据,在形式化受控环境中训练双语模型,并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型,通过比较预测的被标记词与期望输出的实际词的准确度(ACC)来评估正式性准确性。这项研究展示了一种灵活的翻译策略,考虑了目标语言中形式化的细微差别,迎合了多样化的语言交流需求和场景。
Nov, 2023