FAME-MT 数据集:机器翻译中简化形式意识的实现
本篇论文研究如何利用少量有标签的对比数据,学习控制目标语言特征,尤其是正式语言水平的机器翻译问题。通过引入一个注释数据集和相关评估指标,本文证明可以通过微调控制形式的模型,同时保持总体质量高达 82% 和 73% 的精确度。
May, 2022
研究探索了在使用机器学习方法将英语翻译成带有形式化特征语言时,如何解决形式化信息缺失的问题,通过使用印地语作为示例数据,在形式化受控环境中训练双语模型,并与预训练的多语言模型在类似环境中的性能进行比较。主要建模方法是利用转换器模型,通过比较预测的被标记词与期望输出的实际词的准确度(ACC)来评估正式性准确性。这项研究展示了一种灵活的翻译策略,考虑了目标语言中形式化的细微差别,迎合了多样化的语言交流需求和场景。
Nov, 2023
本文介绍了一种基于数据驱动的方法用于形式感知机器翻译,包括语言特定的数据处理、使用大规模语言模型和实证提示工程产生合成数据等核心策略,该方法在改进了基础框架的基础上获得了显著的改进,突出了数据中心技术的有效性。提示工程策略通过生成优秀的合成翻译示例进一步提高了模型的性能。
Jun, 2023
本研究提出了第一个关于文本正式程度检测方法的系统性研究,通过三种类型的实验得出使用 BiLSTM 模型比使用 transformer 模型更具优势,并发布了几种语言的正式程度检测模型,具有测试过的跨语言能力。
Apr, 2022
FRMT 是一个新的数据集和评估基准,针对少样本区域感知机器翻译。该数据集包括英语到葡萄牙语和汉语各两种地区变种的专业翻译。我们为该任务提供了基线模型和训练、评估、比较的准则。
Oct, 2022
研究了单一的多语种模型在控制目标语言和形式上的输出,在解决从英语翻译成六种具有不同语法正式标记的语言方面的问题上,可以接近专用翻译模型实现的翻译质量和形式控制,但是预训练语言模型和微调样本的性质对结果有很大的影响。
May, 2022
通过创建和发布多种形式重组非正式文本的基准测试 XFORMAL,我们迈出了通往多语言风格转移的第一步。XFORMAL 的结果表明,最先进的风格转移方法与简单的基线方法表现相当,这表明在进行多语言风格转移时更具挑战性。
Apr, 2021
面部 - 语音相关的多语言环境问题是 FAME Challenge 2024 探索的主题,利用 Multilingual Audio-Visual (MAV-Celeb) 数据集来进行研究和评估。
Apr, 2024
本文介绍了一种使用多任务学习的新训练方法,通过自动生成合成的训练三元组,解决实际语言环境下缺乏适当数据的问题,从而实现端到端训练。经过全面的自动化和人工评估,我们的模型在保持源意义的同时,更好地匹配所需的正式程度水平,远优于现有模型。
Nov, 2019
通过使用语言模型将正式数学陈述翻译为相应的非正式陈述,我们创建了一个大型、灵活、多语言和多领域的非正式 - 正式对数据集 MMA,实验证明在 MMA 上对语言模型进行微调可以产生 16-18%的陈述,仅需进行最小的修正即可达到 miniF2F 和 ProofNet 标准,这也证明了在单语言任务中部署多语言正式数据进行微调可以得到更有能力的自动形式化模型。
Nov, 2023