FAME-MT 数据集：机器翻译中简化形式意识的实现

May, 2024

FAME-MT 数据集：机器翻译中简化形式意识的实现

FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes

Dawid Wiśniewski, Zofia Rostek, Artur Nowakowski

TL;DR该研究关注机器生成翻译的正式程度，并介绍了 FAME-MT 数据集，该数据集包含 112 个欧洲语言对之间的 1120 万个翻译样本，旨在通过该数据集在欧洲目标语言中调整机器翻译模型的正式程度。

Abstract

People use language for various purposes. Apart from sharing information, individuals may use it to express emotions or to show respect for another person. In this paper, we focus on the formality level of machine-generated translations and present →

formality level machine-generated translations fame-mt dataset machine translation model

发现论文，激发创造

CoCoA-MT：对比控制机器翻译数据集与基准，应用于形式化翻译

本篇论文研究如何利用少量有标签的对比数据，学习控制目标语言特征，尤其是正式语言水平的机器翻译问题。通过引入一个注释数据集和相关评估指标，本文证明可以通过微调控制形式的模型，同时保持总体质量高达 82% 和 73% 的精确度。

May, 2022

用机器翻译控制目标语言的正式特征

研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时，如何解决形式化信息缺失的问题，通过使用印地语作为示例数据，在形式化受控环境中训练双语模型，并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型，通过比较预测的被标记词与期望输出的实际词的准确度（ACC）来评估正式性准确性。这项研究展示了一种灵活的翻译策略，考虑了目标语言中形式化的细微差别，迎合了多样化的语言交流需求和场景。

Nov, 2023

基于数据的正式感敏感机器翻译方法：语言特异处理和合成数据生成

本文介绍了一种基于数据驱动的方法用于形式感知机器翻译，包括语言特定的数据处理、使用大规模语言模型和实证提示工程产生合成数据等核心策略，该方法在改进了基础框架的基础上获得了显著的改进，突出了数据中心技术的有效性。提示工程策略通过生成优秀的合成翻译示例进一步提高了模型的性能。

Jun, 2023

检测文本形式化：一项文本分类方法研究

本研究提出了第一个关于文本正式程度检测方法的系统性研究，通过三种类型的实验得出使用 BiLSTM 模型比使用 transformer 模型更具优势，并发布了几种语言的正式程度检测模型，具有测试过的跨语言能力。

Apr, 2022

FRMT：用于少样本区域感知机器翻译的基准测试

FRMT 是一个新的数据集和评估基准，针对少样本区域感知机器翻译。该数据集包括英语到葡萄牙语和汉语各两种地区变种的专业翻译。我们为该任务提供了基线模型和训练、评估、比较的准则。

Oct, 2022

利用预训练的多语言语言模型控制翻译形式

研究了单一的多语种模型在控制目标语言和形式上的输出，在解决从英语翻译成六种具有不同语法正式标记的语言方面的问题上，可以接近专用翻译模型实现的翻译质量和形式控制，但是预训练语言模型和微调样本的性质对结果有很大的影响。

May, 2022

XFORMAL: 多语种形式化风格转换基准

通过创建和发布多种形式重组非正式文本的基准测试 XFORMAL，我们迈出了通往多语言风格转移的第一步。XFORMAL 的结果表明，最先进的风格转移方法与简单的基线方法表现相当，这表明在进行多语言风格转移时更具挑战性。

Apr, 2021

2024 年多语言环境下的面声关联（FAME）挑战评估计划

面部 - 语音相关的多语言环境问题是 FAME Challenge 2024 探索的主题，利用 Multilingual Audio-Visual (MAV-Celeb) 数据集来进行研究和评估。

Apr, 2024

使用合成监督控制神经机器翻译的正式性

本文介绍了一种使用多任务学习的新训练方法，通过自动生成合成的训练三元组，解决实际语言环境下缺乏适当数据的问题，从而实现端到端训练。经过全面的自动化和人工评估，我们的模型在保持源意义的同时，更好地匹配所需的正式程度水平，远优于现有模型。

Nov, 2019

多语种数学自动形式化

通过使用语言模型将正式数学陈述翻译为相应的非正式陈述，我们创建了一个大型、灵活、多语言和多领域的非正式 - 正式对数据集 MMA，实验证明在 MMA 上对语言模型进行微调可以产生 16-18％的陈述，仅需进行最小的修正即可达到 miniF2F 和 ProofNet 标准，这也证明了在单语言任务中部署多语言正式数据进行微调可以得到更有能力的自动形式化模型。

Nov, 2023